ChatGPT è alimentato da una moltitudine di sistemi sottostanti, il più recente dei quali è GPT-4V, o GPT-4 Vision, che gli conferisce le capacità multimodali. Dopo la pubblicazione del modello, a fine settembre, i ricercatori di Microsoft, il principale investitore e partner di OpenAI, hanno eseguito una serie di test per valutarne le capacità. Hanno scoperto che mostra “capacità notevoli, alcune delle quali non sono state studiate o dimostrate negli approcci esistenti”, secondo il documento “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)“.
GPT-4V viene descritto come un modello “potente” con una “capacità senza precedenti di elaborare input multimodali interlacciati (“interleaved”) in modo arbitrario”.
Che cos’è GPT-4V
GPT-4V(ision) è un modello di AI multimodale sviluppato da OpenAI. Permette agli utenti di ChatGPT di porre domande su un’immagine caricata, un processo chiamato visual question answering (VQA). A partire da ottobre, le funzionalità di GPT-4V sono accessibili tramite ChatGPT sul desktop o sulla versione dell’app per iOS per gli abbonati a ChatGPT Plus (20 dollari al mese) o alla versione Enterprise.
Cosa può fare GPT-4V
GPT-4V è in grado di analizzare testo e immagini interlacciate.
Inoltre, è in grado di leggere i punti salienti delle immagini, compresi i numeri di una tabella.
Può analizzare immagini mediche.
È in grado di identificare e descrivere il contenuto delle immagini.
Il modello è anche in grado di comprendere scene, come la vista di una strada dalla telecamera del cruscotto di un’auto, e di rispondere alle relative domande. È in grado di identificare correttamente personaggi famosi.
Può spiegare l’umorismo dei meme.
Il modello è anche in grado di generare descrizioni dettagliate e coerenti dei contenuti delle immagini, andando oltre le semplici etichette. Mostra la capacità di ragionare in modo compositivo, ad esempio rispondendo alle domande individuando le prove visive pertinenti.
Le principali funzionalità di GPT-4V
Le principali funzionalità del GPT-4V sono le seguenti:
Ragionamento visivo: Il modello è in grado di comprendere le relazioni visive e le sfumature contestuali al di là della semplice etichettatura degli oggetti. Può rispondere a domande ragionando su un’immagine, gestire controfattuali e scenari inediti.
Seguire le istruzioni: Il modello può seguire istruzioni testuali per eseguire nuovi compiti in linguaggio visivo senza aggiornare i parametri.
Apprendimento in contesto: Il GPT-4V presenta una capacità di apprendimento in-context a pochi colpi, ovvero è in grado di adattarsi a nuovi compiti con poche dimostrazioni al momento del test.
Riferimento visivo: Il modello comprende i puntatori visivi come le frecce e i riquadri direttamente sovrapposti alle immagini per seguire le istruzioni.
Didascalie dense: GPT-4V genera descrizioni dettagliate di più frasi dei contenuti delle immagini e delle loro relazioni.
Conteggio: Il GPT-4V è in grado di contare le istanze degli oggetti in un’immagine in base a una query.
Codifica: Il modello mostra la capacità di generare codice (ad esempio, parsing JSON) condizionato da input visivi.
Secondo gli scienziati di Microsoft, il modello presenta una comprensione della visione e del linguaggio notevolmente migliorata rispetto ai modelli multimodali precedenti.
Quali sono le limitazioni di GPT-4V
Come ogni modello di intelligenza artificiale che lo ha preceduto, GPT-4V ha i suoi limiti.
Ad esempio, coloro che sperano di utilizzarlo per casi d’uso palesemente complessi potrebbero trovare difficile che il sistema si impegni con richieste specificamente progettate.
Le prestazioni di GPT-4V potrebbero non essere generalizzabili a campioni nuovi o sconosciuti e alcuni casi complessi potrebbero funzionare solo con prompt specificamente progettati.
L’ascesa dei grandi modelli multimodali (LMM)
I modelli di AI multimodali rappresentano il prossimo passo nell’evoluzione dell’AI. I modelli di generazione testuale sono ora arricchiti dalla capacità di interagire con maggiore versatilità attraverso la multimodalità, in particolare la visione, poiché l’uso di un’immagine come prompt rende più facile per l’utente interrogare il modello invece di spiegare goffamente un problema.
Un ChatGPT intelligente e multimodale avvicina OpenAI alla creazione di un’intelligenza artificiale generale (AGI), che è l’obiettivo finale della startup e il Santo Graal della comunità AI da decenni. OpenAI ha dichiarato di voler sviluppare un’intelligenza artificiale generale che sia benefica e sicura per l’umanità – i governi stanno elaborando delle normative per garantirla.
OpenAI non è l’unica a fare ricerca sull’AI multimodale. L’esercito di ricercatori di Meta, guidato dal vincitore del premio Turing Yann LeCun, ha pubblicato modelli di AI multimodale per alimentare la visione dell’azienda di creare un universo metaverso per tutti. Alcuni nomi del calibro di SeamlessM4T, AudioCraft e Voicebox si adopereranno per realizzare l’idea di LeCun secondo cui la multimodalità fornirà un vantaggio agli utenti dell’AI che vogliono essere creativi ma non hanno competenze tecniche.
I modelli multimodali sono anche al centro della ricerca per i modelli di fondazione di nuova generazione presso il Frontier Model Forum, recentemente costituito e composto dai principali sviluppatori di AI, tra cui OpenAI, Microsoft, Google e Anthropic.