Allo Shoreline Amphitheatre di Mountain View, in California, si è tenuta la conferenza più importante dell’anno per Big G: Google I/O. Un evento dedicato agli sviluppatori, che attira anche moltissimi curiosi e appassionati dei prodotti dell’azienda americana. L’edizione 2024 è stata interamente catalizzata dall’intelligenza artificiale.
Gemini 1.5 Pro disponibile in 150 paesi per gli abbonati di Gemini Advanced
Primo annuncio di Sundar Pichai, Ceo di Google: da oggi Gemini 1.5 Pro sarà disponibile in 35 lingue e 150 Paesi per gli abbonati di Gemini Advanced. Tra queste c’è anche l’italiano, quindi chi ha Gemini Advanced potrà usare Gemini 1.5 Pro anche in lingua italiana.
Arriva Gemini 1.5 Flash
Demis Hassabis, ceo di Google DeepMind, annuncia: “Gemini 1.5 Pro era già la nostra versione migliore, ma dai feedback dei nostri utenti abbiamo capito che serviva qualcosa di più leggero e veloce. Per questo oggi introduciamo Gemini 1.5 Flash“. Gemini 1.5 Flash è più leggero, ma al contempo più veloce ed efficiente.
Hassabis ha esordito ricordando che a dicembre Google ha presentato Gemini 1.0, il primo modello nativamente multimodale in tre versioni: Ultra, Pro e Nano. Pochi mesi dopo ha rilasciato 1.5 Pro, con prestazioni migliorate e o una rivoluzionaria finestra di contesto lunga di 1 milione di token. Grazie al feedback degli utenti, ora si sa che alcune applicazioni hanno bisogno di una latenza minore e di un costo di servizio più basso. Questo ha spinto a proseguire con Gemini 1.5 Flash, un modello ancora più leggero di 1.5 Pro, progettato per essere veloce ed efficiente da servire su larga scala.
Sia 1.5 Pro che 1.5 Flash sono disponibili con una finestra contestuale estesa a 1 milione di token in anteprima su Google AI Studio e Vertex AI. Una finestra contestuale a 2 milioni di token è disponibile per gli sviluppatori che usano l’API e i clienti Google Cloud in lista d’attesa. Inoltre, Google sta integrando 1.5 Pro nei Google products, incluso Gemini Advanced e nelle app Workspace.
In aggiunta, Google ha annunciato la prossima generazione di modelli aperti, Gemma 2, e gli avanzamenti sul futuro degli assistenti IA, con Project Astra.
Il nuovo Gemini 1.5 Flash, ottimizzato per essere più veloce ed efficiente
1.5 Flash è l’ultimo modello della famiglia Gemini nonché il modello Gemini più veloce disponibile tramite API. È ottimizzato per attività ad alto volume e ad alta frequenza su larga scala, è più conveniente e presenta la finestra di contesto lungo.
Anche se meno potente di 1.5 Pro, ha capacità eccellenti di ragionamento multimodale su grandi quantità di informazioni e offre una qualità impressionante per le sue dimensioni.
1.5 Flash eccelle nel riassumere, nelle applicazioni di chat, nei sottotitoli di immagini e video, nell’estrazione di dati da documenti e tabelle lunghi e altro ancora. Questo perché è stato addestrato da 1.5 Pro attraverso un processo chiamato “distillazione”, in cui le conoscenze e le competenze più essenziali di un modello più grande vengono trasferite a un modello più piccolo ed efficiente, ha dichiarato Hassabis.
Per saperne di più su 1.5 Flash consultare il report tecnico di Gemini 1.5 aggiornato e il sito web di Gemini. Disponibilità e prezzi di 1.5 Flash in questo blogpost.
Gemini 1.5 Pro è ancora valido
Negli ultimi mesi Google ha migliorato in modo significativo il suo modello migliore per la scalabilità in un’ampia gamma di attività. Oltre a estendere la finestra contestuale a 2 milioni di token, ha migliorato la generazione di codice, il ragionamento logico e la pianificazione, la conversazione a turni multipli e la comprensione di audio e immagini.
L’ultima versione di 1.5 Pro ottiene notevoli miglioramenti rispetto ai benchmark pubblici in diversi ambiti, come ragionamento e codifica, nonché prestazioni all’avanguardia su molteplici benchmark di comprensione di immagini e video, tra cui: MMMU, AI2D, MathVista, ChartQA, DocVQA, InfographicVQA e EgoSchema.
Il modello è ora in grado di seguire istruzioni sempre più complesse e articolate, comprese quelle che specificano il comportamento a livello di prodotto, come il ruolo, il formato, lo stile e altro ancora. Migliorato il controllo sulle risposte quando si usa il modello per casi d’uso specifici, come creare la personalità e lo stile di risposta di un agente di chat o automatizzare i flussi di lavoro attraverso più chiamate a funzioni… Gli utenti possono indirizzare il comportamento del modello impostando istruzioni di sistema.
Aggiunta la comprensione dell’audio nell’API Gemini e in AI Studio, così 1.5 Pro ora può ragionare su immagini e audio dei video caricati in Google AI Studio.
Maggiori dettagli su 1.5 Pro nel report tecnico di Gemini 1.5 aggiornato e sul sito web di Gemini.
Gemini 1.5 Pro e altre funzionalità intelligenti
Gemini è stato progettato per essere un assistente AI personale intuitivo, conversazionale e utile. Che venga usato nell’app o sul web, Gemini può aiutare ad affrontare attività complesse e può inoltre svolgere delle azioni per conto delle persone.
Google sta apportando numerosi aggiornamenti – tra cui una finestra contestuale più ampia, nuova analisi di dati, collegamenti ad altre app Google e più opzioni personalizzabili.
Analisi dei documenti con la finestra contestuale più ampia a livello globale
Google sta rendendo disponibile Gemini 1.5 Pro, il modello all’avanguardia, per gli abbonati a Gemini Advanced. Gemini 1.5 Pro integra i progressi tecnologici più recenti, tra cui una finestra contestuale notevolmente espansa, a partire da 1 milione di token – la finestra più ampia mai offerta da qualsiasi chatbot consumer a livello mondiale. Grazie a una finestra così ampia, Gemini Advanced può cogliere il significato di documenti di dimensioni considerevoli, ad esempio PDF di 1500 pagine, oppure riassumere 100 email in pochi secondi. Presto sarà in grado di gestire contenuti video della durata di 1 ora o codebase con più di 30.000 righe.
Per sfruttare questa ampia finestra contestuale, Google sta aggiungendo la possibilità di caricare file su Gemini Advanced tramite Google Drive o direttamente dal dispositivo. Adesso è possibile ricevere rapidamente risposte e informazioni in merito a documenti di grandi dimensioni, ad esempio comprendere i dettagli del regolamento sugli animali domestici all’interno del contratto di affitto oppure confrontare gli argomenti principali di vari lunghi articoli di ricerca. Inoltre, presto Gemini Advanced potrà essere utilizzato per l’analisi dei dati, individuando insight e creando visualizzazioni grafiche a partire da file di dati caricati, come fogli di lavoro.
Gemini mantiene privati i file e le relative conversazioni, che non verranno usati per addestrare i modelli.
Gemini è nativamente multimodale e 1.5 Pro apporta grandi miglioramenti alla comprensione delle immagini.
Conversazioni più naturali con Gemini Live
Google sta inoltre aggiungendo nuove modalità per interagire con Gemini in modo più naturale, sia parlando sia scrivendo. Con Gemini in Google Messaggi si può provare Gemini nella stessa app usata per scambiare messaggi con gli amici.
Nei prossimi mesi Google implementerà Live per gli abbonati a Gemini Advanced, una nuova esperienza conversazionale mobile che sfrutta la tecnologia vocale più avanzata per rendere più intuitive le conversazioni con Gemini. Con Gemini Live si può parlare a Gemini e scegliere tra una vasta gamma di voci naturali per le risposte. Si può anche parlare alla velocità preferita o interrompere la risposta a metà per chiedere chiarimenti, proprio come faremmo in una normale conversazione.
Creazione semplificata di piani complessi, come gli itinerari per le vacanze
La nuova esperienza di pianificazione di Gemini Advanced non si limita a proporre un elenco di attività suggerite per creare un itinerario personalizzato.
Immaginiamo di chiedere a Gemini: “Io e la mia famiglia andremo a Miami nel weekend. Mio figlio è appassionato di arte, mentre mio marito vuole assolutamente mangiare pesce fresco. Puoi estrarre da Gmail le informazioni sui voli e sull’hotel e aiutarmi a pianificare il fine settimana?”
Questo prompt non richiede a Gemini semplicemente il recupero di informazioni disponibili pubblicamente, come farebbero altri chatbot. Gemini deve tenere in considerazione gli orari dei voli, le preferenze per i pasti e informazioni sui musei locali, comprendendo allo stesso tempo dove è posizionata ciascuna tappa e quanto tempo è necessario per spostarsi da un luogo all’altro. Recupera le informazioni sui voli da Gmail, i consigli per ristoranti e musei nelle vicinanze dell’hotel da Google Maps e usa la Ricerca Google per suggerire altre attività, come una passeggiata nel centro storico o sulla spiaggia, per riempire il resto della giornata. Riassume tutte queste informazioni e crea un itinerario personale e su misura per voi che soddisfi le vostre richieste. E se apportiamo modifiche o aggiungete altri dettagli, l’itinerario verrà aggiornato automaticamente.
Questa nuova esperienza di pianificazione dinamica verrà implementata in Gemini Advanced nei prossimi mesi.
Personalizzazione di Gemini con i Gems
Per un’esperienza ancora più personale, gli abbonati a Gemini Advanced potranno presto creare i Gems, le versioni personalizzate di Gemini. Potremo creare qualsiasi Gem: un personal trainer, un sous chef, un compagno di coding o una guida per la scrittura creativa. È anche facile da configurare. Basta descrivere quello che vogliamo che il Gem faccia e come vogliamo che risponda, ad esempio: “Sei il mio allenatore per la corsa, crea un piano di corsa giornaliero e trasmettimi positività, allegria e motivazione”. Gemini esaminerà queste istruzioni e, con un solo clic, le ottimizzerà per creare un Gem che soddisfi le vostre esigenze specifiche.
Collegamento con più app Google
L’anno scorso Google ha implementato le Estensioni direttamente in Gemini, permettendo di fare ancora di più con le app e i servizi Google che utilizzate già. Poi ha continuato ad aggiungere app Google a Gemini, come l’implementazione dell’Estensione YouTube Music attualmente in roll out. Con Gemini, possiamo cercare la nostra musica preferita anche se non conosciamo il titolo della canzone, citando una strofa preferita o un artista in evidenza.
Presto saranno collegati ancora più strumenti Google a Gemini, tra cui Google Calendar, Tasks e Keep. Potremo, ad esempio, scattare una foto del programma scolastico di nostro figlio e chiedere a Gemini di creare voci di calendario per ogni assignment, o fotografare una nuova ricetta e aggiungerla al vostro Keep come lista della spesa.
Grazie a questi aggiornamenti, molti dei quali saranno disponibili anche per i clienti aziendali, si potrà ottenere l’esperienza più personale e utile mai offerta da Gemini, il tutto con un singolo prompt.
Aggiornamenti di Gemini Nano, il modello on-device
Gemini Nano si sta espandendo oltre gli input di solo testo per includere anche le immagini. A partire da Pixel, le applicazioni che utilizzano Gemini Nano con Multimodalità saranno in grado di comprendere il mondo come fanno le persone, non solo attraverso input di testo, ma anche attraverso la vista, il suono e il linguaggio parlato.
Ulteriori informazioni su Gemini 1.0 Nano su Android.
La nuova generazione di modelli aperti
Presentata anche una serie di aggiornamenti su Gemma, la famiglia di modelli aperti costruiti con la stessa ricerca e tecnologia utilizzata per creare i modelli Gemini.
Si tratta di Gemma 2, la nuova generazione di modelli aperti per l’innovazione responsabile dell’intelligenza artificiale. Gemma 2 ha una nuova architettura progettata per prestazioni ed efficienza rivoluzionarie e sarà disponibile in nuove dimensioni.
La famiglia Gemma si espande anche con PaliGemma, il primo modello di linguaggio visivo ispirato a PaLI-3. Inoltre, aggiornato il toolkit Responsible Generative AI con il comparatore LLM per valutare la qualità delle risposte del modello.
Maggiori informazioni sul blog degli sviluppatori.
Project Astra
Astra è un agente di intelligenza artificiale. “Un agente AI universale che può essere davvero d’aiuto nella vita di tutti i giorni”, afferma Demis Hassabis. Ecco la risposta di Google alle novità di ChatGpt annunciate il 13 maggio. Hassabis mostra poi un video demo in cui si vede l’interazione tra uno speaker e l’assistente Astra. La persona chiede ad Astra di riconoscere alcuni oggetti sulla scrivania di un ufficio e di cercare anche i suoi occhiali, che vengono riconosciuti sulla scrivania. Una innovazione impressionante.
I progressi nello sviluppo di agenti AI universali
Project Astra nasce nell’ambito della missione di Google DeepMind di sviluppare l’intelligenza artificiale in modo responsabile e a servizio delle persone.
Per essere davvero utile, un agente deve capire e rispondere alla complessità e al dinamismo del mondo, proprio come fanno le persone. Inoltre, deve recepire e ricordare ciò che vede per comprendere il contesto e agire. Deve anche essere proattivo, istruibile e personale, in modo che gli utenti possano dialogare con lui in modo naturale e senza ritardi.
Sulla base del modello Gemini, Google ha sviluppato agenti sperimentali che elaborano le informazioni più velocemente attraverso la codifica continua di frame, combinando l’input video e vocale in una linea temporale di eventi e memorizzando nella cache queste informazioni per un richiamo efficiente.
Grazie ai modelli vocali principali, ha anche migliorato il modo in cui parlano, per offrire una gamma più ampia di intonazioni. Ora gli agenti sono in grado di comprendere meglio il contesto in cui vengono utilizzati e di rispondere rapidamente nelle conversazioni.
È facile immaginare un futuro in cui poter avere un assistente esperto al nostro fianco, utilizzando lo smartphone o gli occhiali. Nel corso dell’anno Google porterà alcune di queste capacità di agente e di visione nei suoi prodotti, come l’app Gemini.
Ask Photos
Google Foto è stato uno dei primi prodotti che Google ha costruito mettendo al centro l’AI, con la possibilità di cercare nelle foto e nei video persone, animali, luoghi e altro ancora. Ora ha apportato un importante aggiornamento grazie a Gemini. Con Ask Photos (Chiedi a Foto), la nuova funzionalità sperimentale in arrivo nei prossimi mesi, sarà ancora più facile cercare un ricordo specifico o recuperare informazioni nella vostra galleria.
Trovare il contenuto giusto in maniera più intuitiva
Ogni giorno vengono caricate oltre 6 miliardi di foto su Google Foto. Man mano che i contenuti nelle gallerie delle persone aumentano, trovare ciò di cui si ha bisogno può comportare lo scrolling di pagine e pagine di foto e video, anche con la giusta combinazione di parole chiave. Con Chiedi a Foto è possibile trovare ciò che stiamo cercando in modo naturale, ad esempio chiedendo: “Mostrami la foto migliore tra quelle dei parchi nazionali che ho visitato“. Google Foto mostrerà quello che stiamo cercando, senza bisogno di scrollare.
Fare domande per ricevere risposte utili
Spesso scattiamo delle foto per ricordare momenti felici o dettagli importanti, che potrebbero però essere dimenticati. Chiedi a Foto può recuperare queste informazioni quando chiediamo informazioni legate alla nostra vita. Le potenti funzionalità multimodali di Gemini possono comprendere il contesto e il soggetto delle foto, estrapolando dei dettagli.
Più aiuto nelle attività, oltre alla ricerca
Grazie ai modelli Gemini, anche svolgere attività in Google Foto è più facile. Ad esempio, al termine di un lungo viaggio, può essere impegnativo raccogliere i migliori scatti da condividere con amici e familiari. Chiedi a Foto può aiutarci a ricreare più facilmente i momenti più belli del viaggio. Basterà chiedere e suggerirà le foto migliori, scrivendo anche una didascalia personalizzata da condividere sui social media.
Chiedi a Foto è una funzionalità sperimentale che sarà introdotta presto, con ulteriori funzionalità in arrivo.
Come funziona Chiedi a Foto
- Capisce la domanda: comprende la nostra query e forma un piano per trovare la risposta. Effettua una ricerca sofisticata per vostro conto, specificando non solo le parole chiave pertinenti, come luoghi, persone e date, ma anche concetti in linguaggio naturale come “festa di compleanno a tema”.
- Elabora una risposta: lo step successivo, studia i risultati della ricerca, individuando quali sono irrilevanti e quali invece sembrano corrispondere a ciò che state cercando. Le funzionalità multimodali di Gemini possono aiutare a capire esattamente cosa succede in ogni foto e, se necessario, di leggere anche il testo nell’immagine. Chiedi a Foto elabora quindi una risposta utile e sceglie quali foto e video restituire.
- Offre sicurezza e memorizza le correzioni: anche se Chiedi a Foto è sperimentale e potrebbe non avere sempre la risposta corretta, impieghiamo livelli di protezione e modelli di AI per garantire che le risposte siano sicure e appropriate. E se correggete una risposta o fornite informazioni aggiuntive, Chiedi a Foto può ricordare questi dettagli per il futuro.
Per saperne di più su come funziona Chiedi a Foto sul blog di Google Research.
La protezione della privacy
Le informazioni contenute nelle foto possono essere molto personali: le foto e i video in Google Foto non vengono mai utilizzati per la pubblicità. Google assicura che nessuno esaminerà conversazioni e dati personali in Chiedi a Foto, tranne in rari casi per risolvere abusi o danni. Inoltre, nessun prodotto di AI generativa al di fuori di Google Foto viene addestrato su questi dati personali, compresi altri modelli e prodotti Gemini.
Veo
Sul palco sale l’attore americano Donald Glover che presenta Veo. Veo è la risposta di Google a Sora di Open AI: uno strumento per creare brevi video in diversi stili cinematografici, attraverso prompt testuali. Sempre con dei prompt possono essere modificati. Viene integrata in VideoFX.