I ricercatori di intelligenza artificiale di Meta, la società che possiede Facebook, hanno proposto un nuovo modo per accelerare la generazione di contenuti per usi quali l’elaborazione del linguaggio naturale: MegaByte. Illustrato nel documento pubblicato qui, è stato progettato per migliorare la generazione di contenuti più lunghi. Sistemi come ChatGPT sono in grado di gestire facilmente output brevi, ma più la sequenza è lunga o complessa, più le prestazioni del modello peggiorano.
L’approccio MegaByte utilizza un’architettura di decodifica multi-scala in grado di modellare sequenze di oltre un milione di byte con differenziabilità end-to-end, il che significa prestazioni di generazione potenzialmente migliori a costi di gestione ridotti.
I ricercatori di Meta AI contestano l’architettura basata su transformer. Sviluppati dai ricercatori di Google nel 2017, i sistemi basati su transformer sono stati ampiamente adottati per le attività di NLP, aprendo la strada a modelli e sistemi come ChatGPT, GPT-4 e BERT.
Tuttavia, il team di Meta AI sostiene che i sistemi basati su transformer che lavorano su input complessi come libri o podcast richiedono una notevole quantità di calcolo per funzionare. MegaByte, invece, divide gli input e gli output in “patch” invece che in singoli token. Ogni patch riceve la propria risposta localizzata, che il modello combina con le altre patch per creare l’output finale.
Meta MegaByte, approccio a “patch” che sostituisce la tokenizzazione
L’approccio “a patch” di MegaByte non richiede l’autoscala, o l’aumento delle sequenze, poiché i calcoli vengono eseguiti in parallelo, anziché in sequenza, il che, secondo i ricercatori, porta a risultati più rapidi.
MegaByte “fornisce risultati di modellazione linguistica competitivi con i modelli di sottoparole, il che potrebbe consentire ai modelli a livello di byte di sostituire la tokenizzazione”, suggeriscono i ricercatori.
La nuova architettura proposta da Meta è stata elogiata da Andrej Karpathy, direttore dell’intelligenza artificiale di Tesla, che l’ha definita “promettente”.
“Tutti dovrebbero sperare di poter eliminare la tokenizzazione nei modelli linguistici di grandi dimensioni”, ha dichiarato Karpathy via Twitter. “Così facendo si creano ingenuamente sequenze (a livello di byte) troppo lunghe, quindi il diavolo è nei dettagli”.
Un progetto ancora in fieri
Tuttavia, MegaByte è ancora agli albori: nel documento di Meta si legge che la scala degli esperimenti condotti con MegaByte è “di gran lunga inferiore a quella dei modelli linguistici più avanzati”.
La ricerca futura su MegaByte dovrebbe esplorare la possibilità di scalare l’architettura a modelli e set di dati più grandi, propongono i ricercatori.