ANALISI

Jarvis, OpenAI: “In futuro più modalità sotto un unico modello linguistico”

Il chief architect di OpenAI, durante il suo discorso all’AI Summit London ha previsto significativi avanzamenti nei grandi modelli di linguaggio. Quattro le aree chiave: modelli più intelligenti ed economici, maggiore personalizzazione, maggiore multimodalità come audio e video e chatbot leader nel mercato che operano a livelli altamente simili

Pubblicato il 14 giu 2024

Pierluigi Sandonnini

Colin Jarvis, chief architect di OpenAI, prevede progressi “esponenziali” nelle capacità dei grandi modelli di linguaggio. Lo ha affermato durante il keynote dell’AI Summit London il 12 giugno. Jarvis ha evidenziato quattro aree chiave in cui si aspetta un grande progresso:

modelli più intelligenti ed economici
maggiore personalizzazione del modello
una maggiore multimodalità come audio e video
chatbot leader nel mercato che operano a livelli altamente simili.

Indice degli argomenti:

“Le cose stanno cambiando velocemente”

“Non costruite per ciò che è disponibile oggi, perché le cose stanno cambiando così velocemente”, ha detto Jarvis ai partecipanti, sottolineando che la velocità dell’avanzamento significa che le capacità attuali saranno superate entro il tempo in cui le nuove applicazioni saranno pronte. Ha esortato le aziende a differenziarsi utilizzando API AI linguistiche e creando esperienze utente uniche, approcci ai dati e personalizzazioni del modello.

Jarvis ha affermato che il fattore chiave per le aziende che costruiscono servizi alimentati da modelli linguistici è l’utilizzo dei propri dati proprietari.

“L’esperienza utente che create, i dati che portate al modello e come lo personalizzate e il servizio simile che esponete al modello, è proprio lì che voi riuscirete a differenziarvi e a costruire qualcosa di veramente unico”, ha detto Jarvis. “Se vi limitate a costruire un involucro attorno a uno di questi modelli molto utili, allora non siete diversi dai vostri concorrenti.”

Jarvis ha affermato che i casi d’uso e le esperienze utente precedentemente accantonati dalle aziende a causa del costo o della complessità possono ora essere messi in atto grazie alla riduzione dei costi operativi e ai modelli più intelligenti. Ad esempio, ha evidenziato i costi di incorporamento del modello di OpenAI, descrivendoli come “praticamente gratuiti” – aggiungendo che i casi d’uso precedentemente fuori portata a causa del costo o della latenza possono ora essere messi in funzione.

“Con GPT-4o che esce con una velocità doppia rispetto a GPT-4, abbiamo visto molti casi d’uso che erano terribilmente lenti per gli utenti cadere sotto quella soglia in cui siete felici di spedire a quel punto”, ha detto.

“Ciò che abbiamo visto nell’ultimo anno conferma che prima i modelli diventano più intelligenti, poi diventano più economici e veloci. Abbiamo modelli più intelligenti, ma poi possiamo anche servirli per lavorare a basso costo.”

Jarvis: “La corsa agli armamenti dei chatbot”

ChatGPT è stato rilasciato alla fine del 2022 – ma il mercato dei chatbot sta diventando sempre più affollato con rivali come Gemini di Google e Claude di Anthropic. Jarvis ha descritto il campo come una “corsa agli armamenti”, sottolineando che i chatbot più concentrati sul testo vantano livelli simili di intelligenza. Ha detto che la gamma diversificata di modelli ad alte prestazioni continuerà a verificarsi, con ogni fornitore che cerca di superare l’altro, spingendo le prestazioni del loro bot di qualche punto percentuale.

“La cosa interessante da vedere nel prossimo anno sarà se qualcuno riuscirà a fare un altro salto da GPT-3 a GPTG-4 in termini di capacità di questi modelli, ci aspettiamo di vedere questo continuare, con più fornitori e un mercato più frammentato e diversificato”, ha detto.

Jarvis: “aumento della personalizzazione del modello”

Tradizionalmente, le aziende prendevano un modello base e lo affinavano per il loro caso d’uso o applicazione. Tuttavia, i modelli linguistici sono limitati in quanto possono essere affinati e costruire su un modello open source richiede notevoli competenze tecniche e carichi di lavoro computazionali. Jarvis prevede che le aziende cercheranno sempre più di prendere un modello base e poi addestrarlo attraverso l’apprendimento rinforzato, per farlo diventare un esperto in un campo o argomento rilevante. “Ciò porterà con sé molte preoccupazioni per la sicurezza, ma porterà anche molti casi d’uso davvero interessanti in cui potreste creare come un esperto agricolo o legale”, ha spiegato.

I modelli addestrati per essere esperti potrebbero dimostrarsi inestimabili per le applicazioni di servizio al cliente, con Jarvis che cita tali usi come fornire alle aziende un “valore abbastanza provato dall’AI generativa finora.” I modelli linguistici basati potrebbero automatizzare certe funzioni del servizio clienti mentre agiscono come supporto per il personale umano, ha spiegato Jarvis.

“Più complesso è il processo, più si vuole coinvolgere l’umano, più si desidera un’esperienza assistenziale in cui l’umano e l’AI lavorano insieme. E meno complesso è, più probabilmente lo si automatizzerà”, ha detto Jarvis. “Far rimanere l’umano nel loop non è una scappatoia con le esperienze AI, in molti casi d’uso, porta a una migliore esperienza per l’utente.”

Aumento delle modalità, riduzione dei costi

Quando ChatGPT è uscito, gestiva semplicemente testo e codice. Ora, attraverso aggiornamenti come il modello GPT-4o, può gestire immagini, testo, codice e altro ancora. Jarvis ha spiegato che modelli come GPT-4o permettono alle aziende di far passare gli input attraverso una singola chiamata API, invece di chiamate separate per ogni modalità, riducendo così i costi per far funzionare il modello. “Questo sta rendendo le cose molto più veloci”, ha affermato. “Qui è dove un intero nuovo insieme di esperienze utente che dipendono dall’interazione a bassa latenza con le modalità che cambiano diventano accessibili con questo cambiamento.”

OpenAI ha dimostrato chatbot multimodali interattivi al suo evento primaverile e l’architetto capo dell’azienda ha spiegato che sono il prossimo cambiamento nella meta per i modelli linguistici: più modalità sotto un unico modello linguistico.

“Arriveremo eventualmente a vedere un modello a cui posso parlare, poi questo produce un video riguardo a ciò di cui ho parlato; in realtà, le modalità smettono di essere una barriera, accetto semplicemente che posso interagire con questa API nel modo in cui desidero”, ha concluso Jarvis.

@RIPRODUZIONE RISERVATA

Pierluigi Sandonnini

Senior web editor Digital360. Oltre trent'anni di esperienza giornalistica, maturata in diversi settori della tecnologia: audio video, tv digitale, telecomunicazioni, internet, intelligenza artificiale. Da cinque anni gestisce il sito Ai4business.it, curandone i contenuti e scrivendo articoli.

Seguimi su