tecnologia

NeurIPS 2024: Google DeepMind presenta AndroidControl



Indirizzo copiato

Si tratta del dataset di controllo più diversificato fino a oggi per migliorare le prestazioni degli agenti AI. DeepMind lo presenta alla conferenza che si tiene a Vancouver dal 10 al 15 dicembre, oltre ad avanzamenti significativi nel campo degli agenti AI adattivi, della creazione di scene 3D e dell’addestramento di modelli linguistici di grandi dimensioni

Pubblicato il 10 dic 2024



NeurIPS

Dal 10 al 15 dicembre, i ricercatori di intelligenza artificiale di tutto il mondo si riuniranno per la 38ª Conferenza Annuale sui Sistemi di Elaborazione dell’Informazione Neurale (NeurIPS) a Vancouver. Durante l’evento, Google DeepMind riceverà riconoscimenti per due articoli che hanno avuto un’influenza decisiva nel campo.

Costruire agenti AI adattivi e sicuri

Gli agenti AI basati su modelli linguistici mostrano la promessa di eseguire compiti digitali tramite comandi in linguaggio naturale. Tuttavia, il loro successo dipende dall’interazione precisa con interfacce utente complesse. Google DeepMind presenta AndroidControl, il dataset di controllo più diversificato fino a oggi per migliorare le prestazioni degli agenti AI.

Esempio di dimostrazione di un’attività contenuta in Android Control. I cerchi/rettangoli verdi evidenziano l’azione sullo schermo. I numeri rossi sono aggiunti solo a scopo illustrativo.

Stanno emergendo agenti autonomi che controllano le interfacce utente per svolgere compiti umani. L’utilizzo di LLM per alimentare tali agenti è stato oggetto di particolare interesse, ma a meno che non vengano messi a punto su dimostrazioni di compiti raccolti dall’uomo, le prestazioni sono ancora relativamente basse. In questo lavoro studiamo se la sola messa a punto sia un approccio praticabile per costruire agenti di controllo dell’interfaccia utente nel mondo reale.

A tal fine, DeepMind ha raccolto e rilasciato un nuovo set di dati, AndroidControl, composto da 15.283 dimostrazioni di attività quotidiane con applicazioni Android. Rispetto ai dataset esistenti, ogni istanza di task di AndroidControl include istruzioni generate dall’uomo sia di alto che di basso livello, consentendo di esplorare il livello di complessità del task che un agente può gestire. Inoltre, AndroidControl è il set di dati sul controllo dell’interfaccia utente più diversificato finora esistente, in quanto include 14.548 compiti unici su 833 applicazioni Android, consentendo di condurre un’analisi approfondita delle prestazioni del modello all’interno e all’esterno del dominio dei dati di addestramento.

Utilizzando il set di dati, scopriamo che quando vengono testati nel dominio, i modelli ottimizzati superano le prestazioni di base a zero e a pochi scatti e scalano in modo tale che è possibile ottenere prestazioni robuste semplicemente raccogliendo più dati. Al di fuori del dominio, le prestazioni scalano in modo significativamente più lento e suggeriscono che, in particolare per i compiti di alto livello, la sintonizzazione fine su un numero maggiore di dati può essere insufficiente per ottenere prestazioni robuste al di fuori del dominio.


Riconoscimenti e presentazioni di Google DeepMind

Due articoli guidati da ricercatori di Google DeepMind saranno premiati con il “Test of Time” per il loro impatto duraturo. Ilya Sutskever presenterà il lavoro su “Sequence to Sequence Learning with Neural Networks”, mentre Ian Goodfellow e David Warde-Farley discuteranno delle “Generative Adversarial Nets”.

Inoltre, verranno mostrati esempi di come la ricerca fondamentale si traduca in applicazioni reali, con dimostrazioni dal vivo tra cui Gemma Scope, l’IA per la generazione di musica, le previsioni meteorologiche e altro ancora.


Innovazioni nella creazione e simulazione di scene 3D

Con la crescente domanda di contenuti 3D di alta qualità, Google DeepMind presenta approcci innovativi per la generazione, la simulazione e il controllo di scene 3D. Il sistema CAT3D consente la creazione di contenuti 3D da un numero qualsiasi di immagini, anche solo una, migliorando velocità e qualità rispetto ai metodi precedenti.


Miglioramenti nell’addestramento dei modelli linguistici di grandi dimensioni

Google DeepMind esplora nuovi modi per addestrare e migliorare i modelli linguistici di grandi dimensioni (LLM). Con finestre di contesto più ampie, gli LLM possono apprendere da migliaia di esempi contemporaneamente. La tecnica Time-Reversed Language Models (TRLM) migliora la qualità delle risposte e la generazione di citazioni.


Articoli correlati

Articolo 1 di 4