tecnologia

Ecco Molmo, il piccolo modello che supera in prestazioni GPT-4o



Indirizzo copiato

Lo ha sviluppato l’Allen Institute for Artificial Intelligence (Ai2), un’organizzazione no-profit di ricerca convinta che modelli come questo offrano prestazioni equivalenti ai migliori modelli proprietari di OpenAI, Google e Anthropic

Pubblicato il 26 set 2024



Molmo

Un nuovo modello di intelligenza artificiale open-source, di dimensioni ridotte, dimostra prestazioni pari a quelle dei potenti modelli proprietari. I risultati suggeriscono che l’addestramento dei modelli su dati di qualità superiore, ma in quantità minore, può ridurre i costi computazionali. L’Allen Institute for Artificial Intelligence (Ai2), un’organizzazione no-profit di ricerca, sta lanciando una famiglia di modelli linguistici multimodali open-source chiamata Molmo. Secondo Ai2, questi modelli offrono prestazioni equivalenti ai migliori modelli proprietari di OpenAI, Google e Anthropic.

L’organizzazione afferma che il suo modello Molmo più grande, con 72 miliardi di parametri, supera GPT-4o di OpenAI, stimato avere oltre mille miliardi di parametri, nei test che misurano la comprensione di immagini, grafici e documenti.

👋 Meet Molmo: A Family of Open State-of-the-Art Multimodal AI Models

Molmo ha “solo” 7 miliardi di parametri

Ai2 sostiene che un modello Molmo più piccolo, con 7 miliardi di parametri, si avvicina alle prestazioni del modello all’avanguardia di OpenAI, un risultato attribuito a metodi di raccolta e addestramento dei dati molto più efficienti.

“Molmo dimostra che lo sviluppo di AI open-source è ora alla pari con i modelli chiusi e proprietari,” afferma Ali Farhadi, CEO di Ai2. I modelli open-source hanno un vantaggio significativo: la loro natura aperta consente ad altri di costruire applicazioni su di essi.

La demo di Molmo è disponibile qui e sarà accessibile agli sviluppatori sul sito di Hugging Face.

Altri grandi modelli linguistici multimodali vengono addestrati su vasti set di dati contenenti miliardi di immagini e campioni di testo raccolti indiscriminatamente da internet, il che introduce molto rumore nei dati di addestramento e, con esso, allucinazioni, spiega Ani Kembhavi, direttore senior della ricerca presso Ai2.

In contrasto, i modelli Molmo di Ai2 sono stati addestrati su un set di dati significativamente più piccolo e curato, contenente solo 600mila immagini, e hanno tra 1 miliardo e 72 miliardi di parametri. Questo focus su dati di alta qualità, rispetto ai dati raccolti indiscriminatamente, ha portato a buone prestazioni con molte meno risorse, afferma Kembhavi.

Confronto sull’apertura dei VLM. Caratterizziamo l’apertura dei VLM in base a due attributi (pesi aperti, dati e codice aperti) su tre componenti del modello (il VLM e i suoi due componenti pre-addestrati, la spina dorsale LLM e il codificatore di visione). Oltre a “aperto” e “chiuso”, l’etichetta “distillato” indica che i dati utilizzati per addestrare il VLM includono immagini e testi generati da un VLM proprietario diverso, il che significa che il modello non può essere riprodotto senza dipendere dal VLM proprietario.

Molmo è stato addestrato su dati di qualità con supervisione umana

Ai2 ha raggiunto questo risultato facendo descrivere agli annotatori umani le immagini nel set di dati di addestramento in dettaglio minuzioso su più pagine di testo. Gli annotatori hanno descritto ciò che vedevano invece di digitare, e poi sono state utilizzate tecniche di AI per convertire il loro discorso in dati, rendendo il processo di addestramento molto più rapido e riducendo la potenza di calcolo necessaria.

Queste tecniche potrebbero rivelarsi davvero utili se vogliamo governare in modo significativo i dati che utilizziamo per lo sviluppo dell’AI, afferma Yacine Jernite, responsabile del machine learning e della società presso Hugging Face, che non ha partecipato alla ricerca.

“Ha senso che, in generale, l’addestramento su dati di qualità superiore possa ridurre i costi computazionali,” afferma Percy Liang, direttore del Stanford Center for Research on Foundation Models, che non ha partecipato alla ricerca.

Molmo ha la capacità di analizzare gli elementi di un’immagine

Un’altra capacità impressionante del modello è la possibilità di “puntare” a cose, ovvero analizzare elementi di un’immagine identificando i pixel che rispondono alle query.

In una demo, i ricercatori di Ai2 hanno scattato una foto fuori dal loro ufficio del porto turistico di Seattle e hanno chiesto al modello di identificare vari elementi dell’immagine, come le sedie a sdraio. Il modello ha descritto con successo il contenuto dell’immagine, ha contato le sedie a sdraio e ha individuato accuratamente altri elementi dell’immagine su richiesta dei ricercatori. Non è stato perfetto, tuttavia, poiché non è riuscito a individuare un parcheggio specifico, ad esempio.

Altri modelli avanzati di AI sono bravi a descrivere scene e immagini, afferma Farhadi. Ma questo non basta quando si vuole costruire agenti web più sofisticati che possano interagire con il mondo e, ad esempio, prenotare un volo. Puntare permette alle persone di interagire con le interfacce utente, dice.

Jernite afferma che Ai2 opera con un grado di apertura maggiore rispetto a quanto visto da altre aziende di AI. E mentre Molmo è un buon inizio, la sua vera importanza risiederà nelle applicazioni che gli sviluppatori costruiranno su di esso e nei modi in cui le persone lo miglioreranno.

Farhadi è d’accordo. Le aziende di AI hanno attirato investimenti massicci, di migliaia di miliardi di dollari, negli ultimi anni. Ma negli ultimi mesi, gli investitori hanno espresso scetticismo riguardo al fatto che tali investimenti porteranno ritorni. I grandi modelli proprietari e costosi non lo faranno, sostiene, ma quelli open-source possono. L’AI open-source può essere costruita in modo efficiente in termini di denaro e tempo.

Articoli correlati

Articolo 1 di 4