CONNESSIONI SINTETICHE

Google Gemini Pro: i dubbi sulle capacità di ragionamento multimodali



Indirizzo copiato

Un’analisi critica delle capacità di ragionamento del modello di Google, alla luce dei benchmark preliminari, evidenziano l’importanza di valutazioni indipendenti sulla bontà delle decisioni AI-powered

Pubblicato il 26 gen 2024

Gioele Fierro

CEO e Founder Promezio Engineering



word-image-21975-1

Google Gemini Pro è il modello AI più avanzato di Google, capace di elaborare e comprendere dati testuali e visivi. Questo modello multimodale, ora disponibile in anteprima pubblica, promette di offrire nuove possibilità di interazione e apprendimento tra umani e macchine. Tuttavia, il video dimostrativo di Google Gemini Pro ha sollevato alcune polemiche per la sua rappresentazione fuorviante delle capacità reali del modello.

Queste critiche costituiscono un valido punto di partenza per comprendere le reali performance dei modelli attualmente disponibili e per sottolineare l’importanza di una valutazione adeguata delle capacità di ragionamento dell’intelligenza artificiale, prima di impiegarla in contesti decisionali.

Google Gemini Pro e i MLLM

I MLLM (Multimodal Large Language Model) rappresentano una significativa evoluzione rispetto ai LLM (Large Language Model). La loro principale differenza risiede nella capacità di elaborare e comprendere diversi tipi di dati: i MLLM possono analizzare e generare risposte basate su una combinazione di input testuali, visivi, audio e video, offrendo così un’interpretazione più ricca e contestualizzata del mondo reale.

Un esempio recente di un MLLM avanzato è Google Gemini Pro, parte della famiglia di modelli AI di Google. Gemini Pro, una versione più leggera del modello Gemini Ultra, è ora disponibile in anteprima pubblica su Vertex AI, la piattaforma di sviluppo AI completamente gestita da Google. Questo modello è stato progettato per essere nativamente multimodale, in grado di elaborare un’ampia gamma di dati, tra cui testo, immagini, video e audio. Inoltre, Gemini Pro supporta 38 lingue e regioni e offre funzionalità come la chat e la moderazione dei contenuti.

Il video dimostrativo di Google Gemini Pro ha generato polemiche a causa della sua rappresentazione fuorviante delle capacità del modello. Lo spot suggeriva che Gemini fosse in grado di comprendere e rispondere a comandi vocali e visivi in tempo reale. Tuttavia, si è scoperto che il video non era una dimostrazione dal vivo, ma era stato accuratamente realizzato utilizzando prompt di testo e immagini fisse.

Invece di una vera interazione vocale o di risposte in tempo reale agli stimoli visivi, Google ha utilizzato frame di immagini fisse e ha sollecitato Gemini tramite interazioni testuali, portando a una rappresentazione che si discostava dalla funzionalità effettiva dell’AI.

Ad esempio, nel video, il modello riconosceva rapidamente i gesti delle mani dell’operatore come parte del gioco “carta, forbice, sasso”. Tuttavia, è stato scoperto che il prompt effettivo richiedeva all’AI di rispondere mostrando i tre gesti del gioco, fornendole un suggerimento su come rispondere, rivelando così un’interazione più artificiale rispetto a quella rappresentata. La messa in scena del video ha sollevato domande sulla trasparenza delle valutazioni comparative tra le performance dei modelli, un dubbio che attraversa l’intera industria AI.

google gemini pro

Common Sense: il terreno della sfida

Il buon senso nell’intelligenza artificiale si riferisce alla capacità di un sistema di comprendere e interpretare il mondo in modo intuitivo, utilizzando conoscenze e credenze basilari, spesso implicite. Questo aspetto è cruciale per le performance delle AI, specialmente nei modelli MLLM, dove il ragionamento basato sul senso comune permette a queste macchine di interagire e interpretare linguaggio e segnali visivi in modo simile agli umani. È impossibile dare una breve e univoca definizione del common sense; quindi, semplifichiamo il compito suddividendo il problema nei vari domini all’interno dei quali il buon senso opera.

  1. Senso comune generale: possedere conoscenze di base sul mondo. Ad esempio, sappiamo che gli uccelli volano nel cielo e i pesci nuotano nell’acqua.
  2. Senso comune contestuale: interpretare informazioni in contesti specifici. Ad esempio, intuiamo che se una persona passeggia su un viale innevato in t-shirt e trema, probabilmente ha freddo.
  3. Senso comune per abduzione: formulare le spiegazioni più plausibili per le osservazioni effettuate. Ad esempio, sappiamo che se le strade sono bagnate, probabilmente ha piovuto di recente.
  4. Senso comune sugli eventi: comprendere sequenze di eventi e le loro relazioni causali. Ad esempio, siamo consapevoli che mangiare quel sushi che è in frigo da settimane ci farebbe stare male.
  5. Senso comune temporale: capire concetti legati al tempo. Ad esempio, se qualcuno ci invita a colazione per le 9:30, capiamo che intende sicuramente le 9:30 del mattino e non le 9:30 della sera.
  6. Senso comune numerico: comprendere i numeri in contesti quotidiani. Ad esempio, sappiamo che un cubo ha sei facce, anche quando ne vediamo solo alcune.
  7. Senso comune fisico: capire il mondo fisico. Ad esempio, sappiamo che un bicchiere in vetro si romperebbe, se lo facessimo cadere sul pavimento.
  8. Senso comune scientifico: applicare principi scientifici nella vita di tutti i giorni. Ad esempio, sappiamo che bisogna aspettare di più per far bollire l’acqua in uno chalet sul Monte Bianco rispetto a farla bollire in una casa sulla spiaggia.
  9. Senso comune dei rebus: risolvere sfide al pensiero creativo attraverso indovinelli. Riusciamo (non sempre) a decifrare un indovinello la cui risposta è “un’ombra” della domanda.
  10. Senso comune sociale: comprendere le interazioni sociali. Ad esempio, capiamo che se una persona piange da sola in un angolo durante una festa, probabilmente c’è qualcosa che non va.
  11. Senso comune morale: valutare azioni basate su standard morali ed etici. Ad esempio, sappiamo che rubare è generalmente considerato sbagliato.
  12. Senso comune visuale: Interpretare e comprendere informazioni visive nel contesto del mondo fisico e sociale. Ad esempio, guardando una foto di una strada affollata di New York, possiamo dedurre se è stata scattata durante il giorno o la notte.

Valutare le performance di un’AI in questi domini significa misurare quanto bene riesce a mimare il ragionamento umano in questi aspetti vari e complessi del senso comune.

Un test comparativo

Un gruppo di ricercatori della Stanford University ha documentato in un paper un tentativo di comparazione avanzato tra i grandi modelli generativi attualmente disponibili: Gemini Pro, LLama2, GPT-3.5 Turbo e GPT-4 Turbo. Questo approccio valutativo tenta di misurare la capacità di comprensione olistica e integrata del mondo reale, sperimentando su 12 dataset relativi a diversi tipi di ragionamento basato sul senso comune.

I risultati dei test rivelano un quadro complesso. GPT-4 Turbo supera in media gli altri modelli nella maggior parte dei dataset. Gemini Pro registra performance marginalmente superiori rispetto a GPT-3.5 Turbo (modello ormai obsoleto) in alcuni compiti di ragionamento basato sul linguaggio, ma le sue capacità si dimostrano meno evolute rispetto a quelle del modello di punta di OpenAI. Anche nella multimodalità, i risultati non sono entusiasmanti per Gemini Pro, che mostra evidenti difficoltà nell’identificare stimoli emotivi e concetti sociali nelle immagini che coinvolgono esseri umani.

Tutti i modelli mostrano solide capacità nella gestione del ragionamento etico, con una buona conoscenza delle norme morali e sociali, motivata anche dalla presenza di una serie di hardcoded rule imposte dai produttori. Tuttavia, persiste ancora una notevole disparità nelle loro prestazioni su compiti di ragionamento concettuale e contestuale.

Per quanto riguarda i dataset multimodali, le performance di GPT-4 sono risultate le migliori in tutte le domande che riguardano la comprensione delle attività che accadono nel contesto, nella generazione di ipotesi sul contesto e nella comprensione dei ruoli dei soggetti coinvolti. Gemini Pro supera il concorrente soltanto nelle domande che coinvolgono le sequenze temporali nelle quali le azioni si svolgono.

La valutazione

I risultati indicano chiaramente che i principali LLM disponibili ad oggi, pur dimostrando buone capacità di ragionamento, registrano ancora performance molto limitate in quei compiti che richiedono la comprensione di contesti specifici o la capacità di ragionamento astratto. Per l’AI, risulta ancora difficile rispondere a quesiti che coinvolgono dinamiche temporali, scenari sociali non banali o enigmi che richiedono un percorso di pensiero teorico.

La valutazione di un modello LLM resta comunque un compito molto complesso. Il buon senso è un concetto sfumato che ha diverse accezioni interdipendenti con il contesto. Non basta considerare la correttezza delle risposte generate; servono strumenti in grado di misurare accuratamente la coerenza logica e la valutazione circostanziale dell’AI, così da identificarne i limiti.

L’intelligenza artificiale inizia a essere usata ampiamente in contesti decisionali senza una regolamentazione condivisa che ne definisca le responsabilità o ne limiti l’azione operativa. La trasparenza e l’accountability diventano così cruciali: è difficile valutare come questi modelli prendano decisioni specifiche, il che rende sfidante garantire la responsabilità per eventuali errori o pregiudizi. Inoltre, i bias presenti nei dati di addestramento possono portare a decisioni ingiuste o discriminatorie, riflettendo e potenzialmente amplificando pregiudizi esistenti nella società.

L’approccio multimodale è un tassello importante che permetterà all’AI di affrontare le sfide poste da contesti complessi e dinamici. Prima di valutare se inserire questi modelli in un processo decisionale sono, però, necessarie validazioni più rigorose sul ragionamento di senso comune dell’AI, test che vanno al di là degli slogan di marketing, che (ovviamente) puntano soltanto a mettere in luce determinate feature. Risulta ormai evidente l’esigenza di un’analisi critica e indipendente delle capacità dell’AI, atta a verificare non solo la sua efficienza tecnica, ma anche la sua affidabilità etica e sociale. In questo modo, si può garantire che le decisioni prese dall’intelligenza artificiale siano non solo tecnicamente corrette, ma anche eticamente responsabili e socialmente accettabili.

Articoli correlati

Articolo 1 di 4