Gemini Ultra è un modello multimodale di grandi dimensioni (LMM) che offre una serie di funzioni avanzate per la produttività. Questa intelligenza artificiale all’avanguardia è disponibile tramite il piano Google One AI Premium. Questo nuovo piano, che costa 19,99 dollari al mese, fornisce non solo l’accesso a Gemini Advanced, ma anche a una serie di altri vantaggi legati a Google One, inclusi 2TB di spazio di archiviazione e funzionalità premium per Workspace e Google Photos.
Come funziona Gemini Ultra
Gemini Ultra è la prima AI ad aver superato gli esperti umani in alcuni test di comprensione del linguaggio MMLU (Massive Multitask Language Understanding), utilizzando una combinazione di 57 argomenti che spaziano dalla matematica alla filosofia, dimostrando un notevole progresso nella capacità di ragionamento e di risoluzione dei problemi. È anche il primo modello a raggiungere risultati paragonabili a quelli ottenuti da GPT4 di Open AI nei benchmark più complessi per le intelligenze artificiali generative.
L’architettura dietro Gemini Advanced permette agli utenti di avere conversazioni più lunghe e dettagliate, grazie alla capacità del modello di comprendere meglio il contesto dalle richieste precedenti. Il chatbot può fungere da tutor personale, da assistente nella scrittura di codice per scenari particolarmente complessi, e da partner creativo per la generazione di nuovi contenuti, l’analisi di tendenze e l’ideazione di strategie di crescita per i creator digitali. La versione Ultra di Gemini è frutto degli ultimi avanzamenti di Google nell’AI e verrà continuamente migliorata con nuove funzioni esclusive, come capacità multimodali espandibili, funzionalità di codifica interattive avanzate, e capacità di analisi dei dati più profonde.
Il piano Google One AI Premium prevede un periodo di prova gratuito di due mesi, consentendo agli utenti di esplorare le capacità avanzate di Gemini senza costi iniziali. Inoltre, gli abbonati avranno presto la possibilità di utilizzare Gemini in vari strumenti di produttività di Google, come Gmail, Docs, Slides, Sheets e altro ancora, estendendo significativamente l’ecosistema di applicazioni che possono beneficiare dell’intelligenza artificiale all’avanguardia di Google.
Gemini Advanced: tutta la potenza di Gemini Ultra
La nuova AI generativa di Google si basa su un’architettura di rete neurale di nuova generazione, disponibile in tre dimensioni: Ultra per compiti altamente complessi, Pro per performance migliorate e implementabilità su larga scala, e Nano per applicazioni su dispositivo. Ogni dimensione è appositamente progettata per affrontare diverse limitazioni computazionali e requisiti applicativi. Gemini Advanced usa il modello più performante dei tre, Ultra 1.0, che offre prestazioni all’avanguardia su una vasta gamma di compiti altamente complessi, compresi task multimodali e di ragionamento.
Il modello Gemini Ultra rappresenta un’evoluzione nel campo dell’intelligenza artificiale, grazie alla sua capacità di elaborare diverse tipologie di dati. Questo significa che, a differenza di altri sistemi che necessitano di modelli separati per gestire testo, codice, immagini e audio, Gemini Advanced può processare tutte queste informazioni in modo integrato. Ciò si traduce in una maggiore efficienza e semplicità di utilizzo, con un notevole abbattimento dei costi di sviluppo e gestione.
Gemini Ultra si distingue anche per la sua architettura ottimizzata che sfrutta al meglio le capacità hardware delle TPU appositamente progettate per compiti di intelligenza artificiale. Questo si traduce in un’elaborazione più rapida e un consumo energetico ridotto, caratteristiche che rendono Gemini una soluzione efficiente per applicazioni in tempo reale e su larga scala.
Per comprendere meglio il funzionamento di Gemini Ultra, è utile analizzare i suoi tre componenti principali:
1. Codificatore Multimodale: questo componente è deputato all’estrazione di informazioni da diverse modalità di dati. In parole semplici, il codificatore converte dati come testo, immagini e audio in un formato comune, una rappresentazione vettoriale che può essere utilizzata dagli altri componenti dell’architettura.
2. Trasformatore Generativo: il cuore di Gemini Ultra è il trasformatore generativo. Questo componente elabora la rappresentazione vettoriale generata dal codificatore e la utilizza per creare nuovi contenuti o per svolgere compiti specifici. Il trasformatore è un modello di apprendimento automatico di tipo deep learning, che ha dimostrato grande efficacia in una varietà di task, dalla traduzione automatica alla generazione di immagini.
3. Decodificatore Multimodale: il decodificatore svolge l’operazione inversa rispetto al codificatore. Questo componente, infatti, converte la rappresentazione vettoriale generata dal trasformatore in un formato specifico per la modalità di output desiderata. In questo modo, il sistema può generare testo, immagini, audio o qualsiasi altro tipo di dati supportato.
GPT-4 vs Gemini 1.4: i benchmark
L’utilizzo quotidiano di Gemini Advanced come alternativa a GPT-4 per la generazione del testo si rivela piuttosto soddisfacente. Le risposte dell’AI di Google sembrano più originali rispetto a quelle del competitor di OpenAI, che eccelle invece per completezza dei contenuti.
Per comparare i risultati ottenuti dalle due AI, l’esperienza soggettiva non è sufficiente. I ricercatori hanno messo a punto una serie completa di test per valutare le capacità dei modelli generativi in diversi ambiti e livelli di difficoltà. A seguire, una comparazione dei risultati ottenuti in questi benchmark tra i due modelli in termini di comprensione del testo, logica e matematica:
Benchmark | Gemini Ultra | GPT-4 | Description |
---|---|---|---|
MMLU | 90,0% | 86,4% | Comprensione del linguaggio multitask |
Big-Bench Hard | 83,6% | 83,1% | Ragionamento complesso |
DROP | 82,4% | 80,9% | Comprensione del testo |
HellaSwag | 87,8% | 95,3% | Buon senso e compiti quotidiani |
GSM8K | 94,4% | 92,0% | Aritmetica di base e problemi matematici semplici |
MATH | 53,2% | 52,9% | Problemi matematici complessi |
Anche le capacità multimodali necessitano di test appositi. A seguire, i risultati comparati dei test specifici per la valutazione delle abilità dell’AI nella manipolazione di immagini, video e audio:
Benchmark | Gemini Ultra | GPT-4 | Description |
---|---|---|---|
VQAv2 | 77,8% | 77,2% | IMMAGINI: Comprensione contenuto immagini |
TextVQA | 82,3% | 78,0% | IMMAGINI: Riconoscimento del testo |
DocVQA | 90,9% | 88,4% | IMMAGINI: Comprensione di un documento |
MMMU | 59,4% | 56,8% | IMMAGINI: Comprensione del contenuto e del contesto |
VATEX | 56,0% | N/A | VIDEO: Sottotitolazione |
Perception Test MCQA | 46,3% | N/A | VIDEO: Risposta a domande su video |
CoVoST 2 | 29,1% | N/A | AUDIO: Traduzione |
FLEURS | 17,6% | N/A | AUDIO: Conversione voce-testo |
Concludiamo l’analisi dei benchmark con un confronto sull’accuratezza in un compito tecnico particolarmente delicato: la scrittura di software. È importante sottolineare che questi test sono parziali perché, al momento, Gemini Advanced può scrivere codice, ma non è in grado di eseguirlo. Ciò significa che non può, per esempio, realizzare una data analysis step-by-step partendo da dati in forma tabellare.
Benchmark | Gemini Ultra | GPT-4 | Description |
---|---|---|---|
HumanEval | 74,4% | 67.0% | Generazione codice Python |
Natural2Code | 74,9% | 73.9% | Generazione codice Python |
Esplorazione delle capacità multimodali
Le reali capacità multimodali di Gemini Advanced sono attualmente lontane da quanto mostrato nei video presentati durante il lancio: al momento, sono notevolmente limitate. Ad esempio, per adesso in Italia e negli altri Paesi dell’area economica europea non è possibile generare immagini, mentre con il piano Pro di ChatGPT è possibile sfruttare DALL-E 3 per creare immagini di qualità.
Anche l’analisi delle immagini è, al momento, deludente. L’AI non fornisce descrizioni accurate delle scene rappresentate, ma si limita a ricercare il testo presente nelle immagini per trarre conclusioni poco accurate sul loro contenuto. Nell’esempio riportato di seguito, è possibile leggere la risposta di Gemini Advanced alla richiesta di analizzare un’immagine di un tribunale che include anche l’insegna di un coffee shop. Limitandosi alla sola analisi del testo, le conclusioni a cui giunge sono errate.
Gli evidenti limiti attuali di Gemini Advanced dovrebbero essere superati nei prossimi mesi con gli update che Google renderà disponibili anche per i Paesi dell’area economica europea.
Conclusioni
Gemini Advanced rappresenta un passo significativo nel campo dell’intelligenza artificiale multimodale. Con il suo lancio, Google non solo si posiziona come un forte concorrente nel mercato delle AI, ma offre anche agli utenti un’esperienza di intelligenza artificiale più ricca e sofisticata. La capacità di Gemini Ultra di superare gli esperti umani in test di comprensione del linguaggio e di eguagliare i risultati di GPT4 nei benchmark più esigenti testimonia l’impressionante progresso tecnologico raggiunto.
Le sue capacità multimodali, seppur ancora in fase di sviluppo, aprono nuove possibilità per l’interazione uomo-macchina e per l’analisi di dati complessi. Mentre Google continua a innovare e a espandere le capacità di Gemini Ultra, gli utenti possono seguire da vicino i progressi di un’evoluzione sorprendentemente rapida che continua a spingere oltre i confini di ciò che l’AI è in grado di fare.