News

Meta presenta I-JEPA, un modello che sfida l’AI generativa



Indirizzo copiato

Secondo l’azienda, si tratta di un passo importante verso l’applicazione e la scalabilità dei metodi auto-supervisionati per l’apprendimento di un modello generale del mondo

Pubblicato il 20 giu 2023



Jepa Meta
Immagine Meta

Meta ha presentato I-JEPA, acronimo di Image Joint Embedding Predictive Architecture, che apprende creando un modello interno del mondo esterno, che confronta le rappresentazioni astratte delle immagini piuttosto che i pixel stessi. Si tratta dell’idea di Yann LeCun, Chief AI Scientist di Meta, che ha sempre proposto pensato che i modelli di intelligenza artificiale ad apprendimento profondo possano imparare a conoscere l’ambiente circostante senza bisogno dell’intervento umano.

Le cose che il modello apprende possono essere applicate a una varietà di applicazioni senza bisogno di un’ampia messa a punto. Meta paragona il funzionamento del modello a quello degli esseri umani che accumulano conoscenze di base sul mondo semplicemente osservandolo passivamente.

“Ad alto livello, l’I-JEPA mira a prevedere la rappresentazione di una parte di un input, come un’immagine o un pezzo di testo, dalla rappresentazione di altre parti dello stesso input. Poiché non comporta il collasso delle rappresentazioni di più viste/aumentazioni di un’immagine in un unico punto, si spera che l’I-JEPA eviti le distorsioni e i problemi associati a un altro metodo ampiamente utilizzato, chiamato pre-addestramento basato sull’invarianza”, dichiara Meta.

“Allo stesso tempo, prevedendo le rappresentazioni a un alto livello di astrazione piuttosto che prevedere direttamente i valori dei pixel, la speranza è quella di apprendere direttamente rappresentazioni utili che evitino anche le limitazioni degli approcci generativi, che sono alla base dei modelli linguistici di grandi dimensioni che hanno generato tanto entusiasmo di recente.”

JEPA contro l’AI generativa

L’intelligenza artificiale generativa apprende rimuovendo o distorcendo parti dell’input del modello e cercando poi di prevedere la parola o i pixel mancanti. Meta sostiene che i modelli generativi sono più inclini a commettere errori perché cercano di riempire ogni informazione mancante, “anche se il mondo è intrinsecamente imprevedibile”.

I ricercatori di Meta AI sostengono che l’approccio JEPA è in grado di prevedere le informazioni mancanti in una rappresentazione astratta che è “più simile alla comprensione generale che hanno le persone”.

“Rispetto ai metodi generativi che predicono nello spazio pixel/token, I-JEPA utilizza obiettivi di predizione astratti per i quali i dettagli inutili a livello di pixel sono potenzialmente eliminati, portando così il modello ad apprendere più caratteristiche semantiche”, ha affermato Meta.

Un’altra differenza rispetto all’AI generativa è che il pre-addestramento JEPA non comporta alcun overhead associato all’applicazione di incrementi di dati più intensivi dal punto di vista computazionale per produrre viste multiple. Il codificatore di destinazione deve elaborare solo una vista di una immagine e il codificatore di contesto deve elaborare solo i blocchi di contesto.

Secondo i ricercatori di Meta, questo approccio ha permesso a I-JEPA di apprendere rappresentazioni semantiche già pronte senza l’uso di ampliamenti di vista creati a mano.

Il team di ricerca ha dichiarato che, applicando l’approccio JEPA, è stato in grado di addestrare un modello di intelligenza artificiale da 632 milioni di parametri utilizzando 16 GPU A100 in sole 72 ore – altri metodi richiedono in genere da 2 a 10 volte più ore di GPU.

Jepa
Yann LeCun (Immagine Meta)

LeCun è sempre stato scettico nei confronti degli strumenti di AI generativa come ChatGPT. In occasione di un evento tenutosi all’inizio dell’anno, ha affermato che gli strumenti di AI generativa non hanno “alcuna conoscenza del mondo che li circonda” e mancano di contesto. Il capo scienziato dell’intelligenza artificiale di Meta ha paragonato tali strumenti a “ausili per la dattilografia e la scrittura”.

L’intelligenza di livello umano nell’AI è più vicina?

Nel presentare I-JEPA, Meta l’ha descritta come “un passo avanti verso un’intelligenza di livello umano nell’AI”.

La casa madre di Facebook ha dichiarato che il modello “dimostra il potenziale delle architetture per l’apprendimento di rappresentazioni di immagini competitive senza la necessità di conoscenze aggiuntive codificate attraverso trasformazioni di immagini fatte a mano”.

I ricercatori di Meta stanno ora cercando di applicare l’approccio JEPA a modelli più generali provenienti da modalità più ricche, come la possibilità di fare previsioni spaziali e temporali a lungo raggio su eventi futuri in un video a partire da un breve contesto.

Meta sta cercando di estendere l’approccio EPA ad altri domini, come i dati accoppiati immagine-testo e i dati video.

“In futuro, i modelli JEPA potrebbero avere applicazioni interessanti per compiti come la comprensione dei video. Questo è un passo importante verso l’applicazione e la scalabilità dei metodi auto-supervisionati per l’apprendimento di un modello generale del mondo”, ha dichiarato Meta.

Un documento che illustra l’approccio JEPA è stato pubblicato su arXiv, mentre il codice e i punti di controllo del modello sono stati resi open source.

Articoli correlati

Articolo 1 di 4