Google I/O 2023: tutte le novità annunciate

Alla conferenza annuale degli sviluppatori, tenutasi il 10 maggio, il Ceo, Sundar Pichai, ha elencato tutte le novità che il gigante del Web ha in programma. Da Gmail a Street View, a Palm2 e Gemini, a Bard

A sette anni dall’inizio del percorso come azienda AI-first, Google vuole rendere l’AI ancora più utile per le persone, le aziende e le comunità, grazie ai modelli di AI generativa. Alla conferenza annuale degli sviluppatori, Google I/O 2023, tenutasi il 10 maggio, il Ceo dell’azienda, Sundar Pichai, ha elencato tutte le novità che il gigante del Web ha in programma. Da Gmail a Street View, a Palm2 e Gemini, a Bard.

Indice degli argomenti:

Google I/O 2023: “Aiutami a scrivere” in Gmail

“Supponiamo che abbiate ricevuto una e-mail che vi informava che il vostro volo era stato cancellato. La compagnia aerea ha inviato un voucher, ma quello che volete davvero è un rimborso completo. Potreste rispondere e usare ‘Aiutami a scrivere'”, spiega Pichai. “È sufficiente digitare la richiesta di ciò che si desidera (una e-mail che chiede un rimborso completo), premere Crea e viene visualizzata una bozza completa. La bozza contiene i dettagli del volo dalla e-mail precedente. Sembra abbastanza simile a quello che si vuole inviare, ma forse si vuole perfezionarlo ulteriormente. In questo caso, una e-mail più elaborata potrebbe aumentare le possibilità di ottenere il rimborso”.

L’opzione “Aiutami a scrivere” inizierà a essere introdotta con gli aggiornamenti dell’Area di lavoro. E proprio come per Smart Compose, migliorerà con il passare del tempo.

Nuova vista immersiva per i percorsi in Maps

All’I/O dello scorso anno Google ha introdotto Immersive View, che utilizza l’intelligenza artificiale per creare una rappresentazione ad alta fedeltà di un luogo, in modo da poterlo sperimentare prima di visitarlo. Ora sta ampliando la stessa tecnologia per fare ciò che Maps sa fare meglio: aiutare ad andare dove vogliamo. “Ora immaginate di poter vedere il vostro viaggio in anticipo”, afferma Pichai. “Con Immersive View per i percorsi è possibile, a piedi, in bicicletta o in auto. Supponiamo di trovarci a New York e di voler fare un giro in bicicletta. Maps vi ha fornito un paio di opzioni vicino a dove vi trovate. Quella sul lungomare sembra panoramica, ma volete prima farvi un’idea, quindi cliccate su Vista immersiva per i percorsi. È un modo completamente nuovo di vedere il viaggio. È possibile zoomare per ottenere un’incredibile vista a volo d’uccello del percorso”.

Sono disponibili anche altre informazioni: la qualità dell’aria, il traffico e il meteo.

Immersive View per le rotte inizierà a essere distribuito nel corso dell’estate e sarà lanciato in 15 città entro la fine dell’anno, tra cui Londra, New York, Tokyo e San Francisco.

Google I/O 2023: Magic Editor in Foto

Un altro prodotto migliorato dall’intelligenza artificiale è Google Foto, uno dei primi prodotti AI-nativi, presentato all’I/O del 2015. Ora sarà potenziato. Ad esempio, Magic Eraser, lanciato per la prima volta su Pixel, utilizza la fotografia computazionale alimentata dall’AI per rimuovere le distrazioni indesiderate. “Nel corso dell’anno, grazie a una combinazione di comprensione semantica e AI generativa, sarà possibile fare molto di più con una nuova esperienza chiamata Magic Editor“, annuncia Pichai.

Il Ceo di Google anche in questo caso non lesina gli esempi. “Questa è un’ottima foto, ma come genitore probabilmente volete che il vostro bambino sia al centro di tutto. Sembra che i palloncini siano stati tagliati in questa foto, quindi è possibile riposizionare il festeggiato. Magic Editor ricrea automaticamente le parti della panchina e dei palloncini che non sono state catturate nello scatto originale. Come tocco finale, è possibile aumentare il cielo. Questo cambia anche l’illuminazione del resto della foto, in modo che la modifica risulti coerente. È davvero magico”.

Una foto trasformata da Magic Editor in Google Foto

Rendere l’AI più utile per tutti

Da Gmail e Foto a Maps, questi sono solo alcuni esempi di come Google sta utilizzando l’AI.

“Oggi abbiamo 15 prodotti che servono ciascuno più di mezzo miliardo di persone e aziende. E sei di questi prodotti servono oltre 2 miliardi di utenti ciascuno. Questo ci offre molte opportunità per realizzare la nostra missione: organizzare le informazioni del mondo e renderle universalmente accessibili e utili”, illustra Pichai.

Google I/O 2023: PaLM 2 e Gemini

Google annuncia l’entrata in produzione del suo ultimo modello PaLM: PaLM 2.

“PaLM 2 si basa sulla nostra ricerca fondamentale e sulla nostra infrastruttura più recente”, precisa Pichai. “È altamente capace di svolgere un’ampia gamma di compiti e facile da implementare. Oggi annunciamo più di 25 prodotti e funzionalità basati su PaLM 2”.

I modelli PaLM 2 sono stati chiamati affettuosamente Gecko, Otter, Bison e Unicorn. Gecko è così leggero da poter funzionare su dispositivi mobili: abbastanza veloce da consentire ottime applicazioni interattive sul dispositivo, anche quando è offline. I modelli PaLM 2 sono più forti nella logica e nel ragionamento grazie a un’ampia formazione su argomenti scientifici e matematici. Inoltre, sono addestrati su testi multilingue (in più di 100 lingue), in modo da comprendere e generare risultati ricchi di sfumature.

Grazie alle potenti funzionalità di codifica, PaLM 2 può anche aiutare gli sviluppatori a collaborare in tutto il mondo. “Supponiamo che stiate lavorando con un collega di Seoul e stiate eseguendo il debug del codice. Potete chiedere al programma di risolvere un bug e aiutare il vostro collega aggiungendo commenti in coreano al codice. Il programma riconosce innanzitutto che il codice è ricorsivo, quindi suggerisce una soluzione. Spiega il ragionamento che sta alla base della correzione e aggiunge commenti in coreano come richiesto”, spiega Pichai.

Di recente Google ha rilasciato Sec-PaLM, ottimizzato per i casi d’uso della sicurezza. Utilizza l’intelligenza artificiale per rilevare meglio gli script dannosi e può aiutare gli esperti di sicurezza a comprendere e risolvere le minacce.

Med-Palm 2

Un altro esempio è Med-PaLM 2, messo a punto sulle conoscenze mediche. Questa specializzazione ha permesso di ridurre di nove volte i ragionamenti imprecisi rispetto al modello di base, avvicinandosi alle prestazioni di medici esperti che hanno risposto alla stessa serie di domande. “In effetti, Med-PaLM 2 è stato il primo modello linguistico a ottenere prestazioni di livello ‘esperto’ su domande in stile esame di abilitazione alla professione medica, e attualmente rappresenta lo stato dell’arte”, dichiara il Ceo di Google e Alphabet.

Google sta lavorando per aggiungere funzionalità a Med-PaLM 2, in modo che possa sintetizzare le informazioni provenienti da immagini mediche come pellicole e mammografie. “Si può immaginare un collaboratore AI che aiuti i radiologi a interpretare le immagini e a comunicare i risultati. Questi sono alcuni esempi di utilizzo di PaLM 2 in ambiti specializzati. Non vediamo l’ora di vederne l’utilizzo in altri ambiti, ed è per questo che sono lieto di annunciare che PaLM 2 è ora disponibile in anteprima”, dichiara Pichai.

PaLM 2 si basa sui progressi compiuti da due team di ricerca di livello mondiale, il Brain Team e DeepMind, chehanno contribuito a un numero significativo di invenzioni: AlphaGo, Transformers, modelli sequenza-sequenza e così via, che hanno contribuito a gettare le basi per il punto di inflessione in cui ci troviamo oggi. Di recente Google ha riunito questi due team in un’unica unità, Google DeepMind.

Gemini

Da questa unione è nato il foundation model di nuova generazione, Gemini, che è ancora in fase di generazione. Gemini è stato creato da zero per essere multimodale, altamente efficiente nelle integrazioni di strumenti e API e costruito per consentire innovazioni future, come la memoria e la pianificazione. “Sebbene sia ancora agli inizi, stiamo già vedendo capacità multimodali impressionanti, non riscontrabili nei modelli precedenti. Una volta messo a punto e sottoposto a rigorosi test di sicurezza, Gemini sarà disponibile in varie dimensioni e capacità, proprio come il PaLM 2”, dichiara Pichai

Responsabilità dell’AI: strumenti per identificare i contenuti generati

Mentre investe in modelli più capaci, Google investe anche nella responsabilità dell’AI.

Due approcci importanti sono il watermarking e i metadati. Il watermarking incorpora le informazioni direttamente nel contenuto, in modo da mantenerle anche attraverso una modesta modifica dell’immagine. In futuro, stiamo costruendo i nostri modelli per includere il watermarking e altre tecniche fin dall’inizio. Se si guarda un’immagine sintetica, è impressionante quanto sembri reale, quindi si può immaginare quanto sarà importante in futuro.

I metadati consentono ai creatori di contenuti di associare un contesto aggiuntivo ai file originali, fornendo maggiori informazioni ogni volta che si incontra una immagine. “Ci assicureremo che ogni nostra immagine generata dall’intelligenza artificiale sia dotata di tali metadati” afferma Pichai.

Per saperne di più sull’approccio responsabile

Aggiornamenti a Bard e all’area di lavoro

Bard rappresenta l’esperimento di intelligenza artificiale conversazionale, ed è stato lanciato a marzo da Google. “Abbiamo rapidamente evoluto Bard. Ora supporta un’ampia gamma di capacità di programmazione ed è diventato molto più intelligente nel ragionamento e nelle richieste matematiche. Inoltre, da oggi è completamente funzionante su PaLM 2”, spiega Pichai.

Per saperne di più sugli ultimi aggiornamenti di Bard

Nuove funzionalità sono in arrivo anche in Google Workspace. Oltre a “Aiutami a scrivere” in Docs e Gmail, Duet AI in Google Workspace offre strumenti per generare immagini da descrizioni testuali in Slides e Meet, creare piani personalizzati in Sheets e altro ancora.

Per saperne di più sugli ultimi aggiornamenti di Workspace

Presentazione dei Labs e della nuova esperienza di ricerca generativa

A partire da oggi, Goole offre un nuovo modo per provare in anteprima alcune esperienze in Workspace e in altri prodotti. Si chiama Labs. Google ha una lunga storia di utilizzo dei Labs come metodo per consentire l’accesso anticipato e ottenere feedback. Gli sviluppatori possono già iscriversi.

Oltre alle funzionalità di Workspace, una delle prime esperienze che si potranno testare nei Labs riguarda il prodotto di base, Google Search.

I miglioramenti nella comprensione del linguaggio permettono di porre domande in modo più naturale e di raggiungere i contenuti più rilevanti sul Web. I progressi nella computer vision hanno introdotto nuove modalità di ricerca visiva. “Ora, anche se non avete le parole per descrivere ciò che state cercando, potete cercare tutto ciò che vedete con Google Lens”, spiega Pichai. Lens viene utilizzato per oltre 12 miliardi di ricerche visive ogni mese, con un aumento di 4 volte in soli due anni; combinato con la multimodalità, ha portato alla ricerca multipla, che consente di effettuare ricerche utilizzando sia un’immagine che un testo.

“In prospettiva, la profonda comprensione delle informazioni di Google, combinata con le capacità uniche dell’AI generativa, può trasformare ancora una volta il modo in cui funziona la ricerca, sbloccando domande completamente nuove a cui la ricerca può rispondere e creando esperienze sempre più utili che vi connettono alla ricchezza del web”, afferma Pichai. Google ha quindi presentato la nuova Search Generative Experience.