CONNESSIONI SINTETICHE

Gemini AI, che cos’è e cosa fa la nuova AI di Google



Indirizzo copiato

Il nuovo modello si distingue dagli altri LLM attualmente disponibili per vari aspetti chiave, come la capacità di gestire qualsiasi tipo di dato o attività senza la necessità di modelli specializzati. Gemini ha le potenzialità per rivoluzionare i sistemi di AI, generando contenuti originali che superano i limiti del proprio set di formazione

Aggiornato il 26 mar 2024

Gioele Fierro

CEO e Founder Promezio Engineering



Le capacità multimodali di Gemini AI aprono un'ampia gamma di potenziali applicazioni in diversi settori

Google entra nel competitivo settore dell’AI con Gemini, un Large Language Model multimodale che promette di surclassare in performance le AI concorrenti come GPT-4. Capace di elaborare dati eterogenei, Gemini AI mira a rivoluzionare definitivamente l’interazione uomo macchina.

Google's newest and most capable AI | Gemini

Gemini AI è ancora in fase di sviluppo, ma le sue potenzialità sono enormi. L’obiettivo di Google è quello di rendere Gemini AI accessibile a tutti, in modo da poter sfruttare la sua intelligenza per migliorare la nostra vita quotidiana.

Cos’è Gemini AI e come funziona

The capabilities of multimodal AI | Gemini Demo

Con Gemini AI Google tenta un’avanzata strategica nel competitivo mondo dell’intelligenza artificiale conversazionale. Sviluppato dalla divisione DeepMind di Google, Gemini AI è stato progettato per essere un valido concorrente delle intelligenze artificiali conversazionali più note, come ad esempio il modello GPT-4 di OpenAI. Gemini è un Large Language Model (LLM) con capacità multimodali; quindi, sarà in grado di elaborare contemporaneamente dati eterogenei come testi e immagini, rendendo le interazioni più naturali e contestualmente pertinenti.

Le caratteristiche distintive di Google Gemini AI

This is changing the way scientists research | Gemini

Gemini AI si distingue dagli altri Large Language Model (LLM) attualmente disponibili, come GPT-4, per vari aspetti chiave. La capacità del modello di gestire qualsiasi tipo di dato o attività senza la necessità di modelli specializzati, ha le potenzialità per rivoluzionare i sistemi di intelligenza artificiale, generando contenuti originali che superano i limiti del proprio set di formazione. La nuova AI di Google potrebbe quindi offrire risposte “fuori script”, superando i vincoli tipici dei competitors, che restano ancorati agli schemi dei dati di formazione su cui vengono addestrati.

Per il training di Gemini AI, Google utilizza cluster hardware all’avanguardia basati su processori TPU v5, che orchestrano l’operato di 16.384 unità di elaborazione in simultanea. Questi supercomputer sono un elemento chiave nella capacità di Google di addestrare un modello di intelligenza artificiale multimodale di queste dimensioni.

Sundar Pichai, CEO di Google, durante la conferenza degli sviluppatori Google I/O 2023, ha sottolineato la natura ambiziosa di Gemini AI. Durante il suo speech di presentazione ha enfatizzato le possibilità offerte da un’architettura multimodale, ottenuta fondendo i punti di forza del sistema AlphaGo di DeepMind con le caratteristiche tipiche dei LLM di ultima generazione.

Using AI to solve complex problems | Gemini

Tale approccio lascia presagire che Gemini AI possa superare le AI rivali in compiti che richiedono ragionamento avanzato e comprensione del linguaggio naturale. Jeffrey Dean, Chief scientist di Google, ha enfatizzato il ruolo di Pathways, l’infrastruttura AI di Google, per scalare l’addestramento su grandi dataset diversificati.

Dai dati al momento in nostro possesso sembra che Gemini AI potrebbe essere fino a 20 volte più performante di GPT4.

Gemini Pro 1.5

Problem solving across 100,633 lines of code | Gemini 1.5 Pro Demo

Gemini Pro 1.5 è un modello di intelligenza artificiale che si può provare per l’Italia entrando in lista di attesa. Si tratta di un modello potente e versatile, in grado di svolgere diverse attività tra cui:

  • Generazione di testo: può creare testi di vario tipo, come poesie, script, lettere, e codici.
  • Generazione di codice: può scrivere codice sorgente in diversi linguaggi di programmazione.
  • Generazione di immagini e audio: può creare immagini e suoni in base alle istruzioni.
  • Traduzione: può tradurre testi da e verso diverse lingue.
  • Riassunto: può riassumere testi lunghi in maniera concisa.
  • Risposta a domande: può rispondere a domande aperte in modo informativo e completo.

Una delle caratteristiche principali di Gemini Pro 1.5 è la sua grande “finestra di contesto”. Questo significa che può analizzare fino a 1 milione di token (pezzi di testo) contemporaneamente. In pratica, riesce a tenere in considerazione una grande quantità di informazioni per elaborare risposte più precise e pertinenti.

Inoltre, Gemini Pro 1.5 è progettato per essere efficiente e veloce, grazie a una tecnica chiamata Mixture of Experts (MoE). Con questa tecnica, solo una parte del modello viene attivata per elaborare le richieste, riducendo la latenza e i consumi.

Rispetto alla versione precedente, Gemini Pro 1.0, offre prestazioni migliorate dell’87% su vari test utilizzati per lo sviluppo di modelli di linguaggio.

Gemini si fa in tre: Ultra, Pro e Nano

Gemini AI si declina in tre versioni, ognuna con capacità e target di utilizzo differenti:

Gemini Ultra, Gemini Pro e Gemini Nano
  • Gemini Ultra: è il modello più potente e complesso dei tre. Viene sviluppato per operazioni elaborate e specifici campi d’impiego. Attualmente è ancora in fase di test, ma Google prevede di renderlo disponibile entro l’anno.
  • Gemini Pro: È destinato all’integrazione in prodotti Google già esistenti e sostiuisce Bard con il nuovo nome di Gemini advanced ed un abbonamento da 22 euro al mese e due mesi di prova gratuiti.
  • Gemini Nano: È il modello più leggero e snello. Progettato per essere utilizzato anche su dispositivi mobili, è già presente sui Google Pixel 8 e Pixel 8 Pro, con la promessa di essere implementato presto su altri dispositivi Android.

Quali sono le differenze tra le dimensioni Ultra, Pro e Nano di Gemini

Caratteristiche di Gemini Ultra, Gemini Pro e Gemini Nano

Le dimensioni Ultra, Pro e Nano di Gemini differiscono per la loro capacità di elaborazione, la memoria e il costo:

Ultra è la dimensione più potente e versatile di Gemini. È ideale per applicazioni che richiedono un’elevata capacità di elaborazione e memoria, come la generazione di immagini ad alta risoluzione, la traduzione di lingue complesse e lo sviluppo di software avanzato.

Pro è una dimensione equilibrata che offre un buon rapporto tra capacità e costo. È ideale per applicazioni che richiedono un’elevata capacità di elaborazione e memoria, ma non al livello di Ultra.

Nano è la dimensione più piccola e meno potente di Gemini. È ideale per applicazioni che richiedono una capacità di elaborazione e memoria limitate, come la risposta a domande semplici, la traduzione di lingue comuni e la creazione di contenuti di base.

In aggiunta alle differenze sopra menzionate, le dimensioni Ultra, Pro e Nano di Gemini differiscono anche per:

  • Numero di parametri: Ultra ha il maggior numero di parametri, seguito da Pro e Nano.
  • Velocità di elaborazione: Ultra è la più veloce, seguita da Pro e Nano.
  • Disponibilità: Ultra è la meno disponibile, seguita da Pro e Nano.

I test riservati di Google Gemini: un’anteprima della potenza dell’AI

Google ha permesso a un numero limitato di aziende di testare una versione preliminare di Gemini​, e i primi risultati sono stati promettenti. Questa nuova intelligenza artificiale è stata descritta come significativamente più avanzata rispetto ad altre soluzioni esistenti, con risultati migliori sia nel ragionamento logico che nella generazione di testi e codice.

Demis Hassabis, CEO di DeepMind, ha indicato che il team di sviluppo di Gemini AI sta lavorando a nuove capacità di memorizzazione e pianificazione, fondamentali per compiti che richiedono ragionamento intricato. Il modello potrebbe anche utilizzare metodi elaborare blocchi completi di informazioni invece di singoli elementi, migliorando la coerenza fattuale e diminuendo il rischio di generare informazioni errate. Questo approccio si fonda sulle ricerche precedenti di DeepMind nei sistemi multimodali, come quelle sul sistema di annotazione delle immagini “Flamingo”.

Applicazioni pratiche di Gemini AI

Bard becomes Gemini | Ultra 1.0 and a new mobile app

Gemini AI, così come molti altri LLM, trovano applicazione in una molteplicità di settori, rivoluzionando l’industria con la sua capacità di elaborare e interpretare dati in modo innovativo. Se precisione e affidabilità saranno in linea con le aspettative, la nuova AI di Google sarà uno strumento prezioso per aziende e privati.

Per gli utenti individuali, Gemini migliora significativamente l’interazione con i servizi Google, rendendoli più intuitivi e personalizzati. Ad esempio, durante la composizione di un documento in Google Docs, Gemini può assistere nella scrittura del testo, suggerire immagini o diagrammi pertinenti, o fornire aiuto nella codifica, se necessario. Questa capacità di assistenza multimodale apre nuove possibilità per gli utenti nella loro vita quotidiana.

Intermodalità di Gemini nei servizi Google, come Google Drive, Google Hotels, Google Maps o YouTube.

Google Gemini per le aziende

Per le aziende, Gemini può essere uno strumento potente per comprendere e coinvolgere il proprio pubblico. È in grado di fornire approfondimenti dettagliati analizzando le interazioni dei clienti attraverso tutti i media. Inoltre, può aiutare le aziende a comunicare più efficacemente, generando risposte contestualmente pertinenti che comprendono sia testo che grafica.

Anche nell’ambito dell’automazione dei processi le capacità multimodali di Gemini potranno fare la differenza. Integrare e interpretare dati da diverse fonti, come testo, immagini, e audio, permette di automatizzare compiti molto articolati come il controllo qualità o la gestione delle risorse umane. L’AI multimodale offre anche insight più profondi e significativi grazie alla sua capacità di analizzare all’interno dello stesso contesto qualsiasi tipo di dato.

Integrazione con gli strumenti e le API di Google

L’integrazione di Gemini con gli strumenti e le API di Google amplifica ulteriormente la sua applicabilità. È probabile che questo nuovo modello diventi sempre più integrato nell’ampia gamma di servizi e applicazioni di Google e di terze parti, rendendolo un elemento fondamentale nelle esperienze digitali degli utenti.

Nelle interviste ufficiali sul lancio di Gemini AI, uno degli aspetti più rimarcati è la sua capacità di “pensare” fuori dagli schemi dei dati di addestramento. Questo fattore potrebbe ridurre errori e allucinazioni, fornendo risultati più accurati. L’affidabilità sarà un fattore determinante per l’adozione di Gemini in contesti decisionali complessi. L’ampia applicabilità di Gemini AI spazia dall’assistenza sanitaria all’industria automobilistica, dall’analisi finanziaria all’ottimizzazione delle catene di fornitura. Ovunque ci sia la necessità di analizzare grandi quantità di dati e trarre conclusioni rapide e accurate, Gemini AI si pone come una soluzione efficace.

Gemini Google le API

L’importanza strategica del lancio di Gemini AI per Google

Il lancio di Gemini AI segnerà un punto di svolta per Google, con l’obiettivo di consolidare la sua posizione tra le big nell’innovazione tecnologica. Questa AI non solo permetterà a Google di avere uno strumento per contrastare i modelli dei competitors, ma aprirà anche nuove strade per future innovazioni di altri servizi.

Gemini è progettato con un forte accento sulla sicurezza e l’affidabilità, mirando a fornire risposte precise e affidabili che potrebbero cambiare il modo in cui interagiamo con la tecnologia AI​ e anche il modo in cui la consideriamo. Per aumentare la precisione nei contenuti generati, Gemini incorpora la funzione di fact-checking di Google Search e utilizza “episodic memory banks” per memorizzare e recuperare dati, consentendogli di costruire ed espandere la sua base di conoscenza man mano che apprende.

I possibili rischi e le precauzioni con Gemini AI

Nonostante i numerosi vantaggi, l’uso di Gemini AI non è esente da rischi. La questione della privacy dei dati, la sicurezza informatica e le implicazioni etiche dell’uso dell’AI sono temi cruciali. Google ha implementato misure rigorose per mitigare questi rischi, enfatizzando la responsabilità e la trasparenza nel suo utilizzo.

Scrivono Sundai Pichar e Demis Hassabis nell’articolo Introducing Gemini: our largest and most capable AI model:

Per limitare i danni, abbiamo sviluppato classificatori di sicurezza dedicati per identificare, etichettare e filtrare contenuti che coinvolgono violenza o stereotipi negativi, per esempio. Combinato con filtri robusti, questo approccio a più livelli è progettato per rendere Gemini più sicuro e inclusivo per tutti. Inoltre, continuiamo ad affrontare le sfide note per i modelli come la factualità, la messa a terra [grounding], l’attribuzione e la verifica.

Il gigante di Mountain View sta anche collaborando attivamente con il governo degli Stati Uniti e con altri enti governativi nella redazione di una regolamentazione efficace. L’esigenza di avere un set di regole ben definite è sempre più impellente e molte delle possibili applicazioni dell’AI dipendono direttamente da un’infrastruttura legale adeguata alle nuove esigenze tecnologiche.

L’evoluzione di Gemini AI nel tempo

Guardando al futuro, Pichai immagina che Gemini AI evolva oltre uno strumento conversazionale. Lo vede come un passo verso la creazione di “incredibili assistenti personali universali” che potrebbero integrarsi senza problemi in vari aspetti della vita quotidiana, come viaggi, lavoro e intrattenimento. Questa visione si allinea con l’ambizione più ampia di Google di incorporare l’AI avanzata nelle esperienze quotidiane, rendendola parte indispensabile delle nostre interazioni online e offline​.

Gemini sarà la componente centrale dell’offerta AI di Google, e sarà molto probabile vederla integrata con molti dei suoi servizi mainstream. Con le sue capacità multimodali e i risultati promettenti dei test iniziali, conferma l’impegno di Google nel prendere parte attiva alla rivoluzione tecnologica dell’intelligenza artificiale.

Articoli correlati

Articolo 1 di 4