news

Apple presenta MM1, l’AI multimodale che rivoluzionerà Siri e iMessage

Il modello può seguire istruzioni e ragionare su immagini, ma non è stato ancora rilasciato né sono stati annunciati i piani specifici

Pubblicato il 19 mar 2024

Pierluigi Sandonnini

Apple svela il primo modello di intelligenza artificiale multimodale, che potrebbe rivoluzionare Siri e iMessage grazie alla sua capacità di comprendere contestualmente immagini e testi. Apple ha presentato MM1, una serie di modelli multimodali in grado di gestire sia immagini che testi. Questi modelli possono raggiungere fino a 30 miliardi di parametri e sono competitivi con le versioni iniziali di Gemini di Google. MM1 può seguire istruzioni e ragionare su immagini tra le sue abilità multimodali.

Indice degli argomenti:

Apple MM1, apprendimento contestuale

MM1 vanta un’apprendimento contestuale, il che significa che il modello può comprendere e rispondere a domande basate sul contesto fornito all’interno della conversazione corrente senza necessità di un riaddestramento o un affinamento specifico per ogni nuovo tipo di query o compito. Questo tipo di apprendimento potrebbe permettere al modello di generare descrizioni delle immagini o rispondere a domande sul contenuto delle foto basandosi su contenuti mai visti prima. Inoltre, MM1 gode della capacità del ragionamento multi-immagine, ovvero può comprendere, interpretare e trarre conclusioni da più immagini all’interno della stessa query. Grazie a questa funzione, MM1 può gestire interazioni più complesse e sfumate con i contenuti visivi. Grazie alle sue capacità multimodali, Apple potrebbe utilizzare MM1 per migliorare il suo assistente vocale, Siri, permettendogli di rispondere a domande basate su immagini, ad esempio.

MM1 potrebbe anche aiutare a comprendere il contesto delle immagini e dei testi condivisi all’interno di iMessage, offrendo agli utenti suggerimenti più pertinenti per le risposte. Per ora, Apple non ha rilasciato MM1 né ha dichiarato a cosa servirà il modello. I dettagli del modello sono stati delineati in un documento pubblicato a metà marzo 2024.

Tuttavia, secondo Brandon McKinzie, ingegnere senior di ricerca Apple che lavora sui modelli multimodali, MM1 è “solo l’inizio”. Ha infatti dichiarato che Apple è “già al lavoro sulla prossima generazione di modelli”.

All’interno di MM1

Il nuovo grande modello multimodale di Apple ha diverse meccaniche sottostanti che ne migliorano le capacità. Tra queste c’è il suo encoder ibrido, che elabora sia dati visivi che testuali. Questo permette a MM1 di comprendere e generare contenuti che integrano entrambe le forme in modo fluido. Un altro componente chiave di MM1 è il suo connettore visione-linguaggio. Questo colma il divario tra la percezione visiva elaborata dall’encoder dell’immagine e la comprensione testuale gestita dal modello linguistico. In sostanza, il connettore visione-linguaggio unisce le capacità separate del modello per l’elaborazione delle immagini e del testo, permettendo alla percezione visiva delle immagini e alla comprensione del linguaggio di lavorare insieme.

MM1 è scalabile ed efficiente grazie all’uso sia di modelli densi tradizionali che di varianti miste di esperti (MoE). L’uso di MoE permette al modello di aumentare la capacità senza aumentare le richieste computazionali durante l’inferenza. In termini semplici, MM1 può gestire più cose pur rimanendo efficiente. Il team di ricerca che lo ha sviluppato ha scoperto strategie ottimizzate per la gestione dei dati dopo estesi studi sull’impatto dei diversi tipi di dati sulle prestazioni del modello. Ad esempio, hanno scoperto che per un pre-addestramento multimodale su larga scala utilizzando una combinazione di immagini con didascalie intercalate tra immagine-testo e dati solo testuali era “cruciale” per ottenere risultati all’avanguardia.

In termini di prestazioni, la versione da 30 miliardi di parametri di MM1 supera i risultati esistenti per i modelli pre-addestrati sui benchmark multimodali. MM1 batte modelli come Flamingo e IDEFICS che sono più del doppio in dimensione.