La divisione AI di Meta (Facebook) ha sviluppato un modello linguistico di grandi dimensioni, consentendone l’accesso aperto e gratuito ai ricercatori per motivi di studio e conoscenza.
Si tratta di una decisione senza precedenti per le big tech che, in questo caso, favorisce il mondo della ricerca, i cui progressi sono spesso ostacolati e inibiti da regole e strumenti proprietari protetti e sotto il controllo delle grandi società.
“Sottoporre il proprio lavoro alla valutazione della ricerca è qualcosa in cui crediamo fermamente e perciò siamo aperti e sollecitiamo questa collaborazione” – dichiara a Technology Review Joelle Pineau, responsabile di Meta AI e docente di informatica della McGill University.
Open Pretrained Transformer, cos’è
Quello di Facebook è un impegno più generale, ispirato ai criteri della open science, che, come viene sottolineato nel blog aziendale, ha portato alla condivisione di Open Pretrained Transformer (OPT-175B).
Si tratta di un modello linguistico di grandi dimensioni, dotato di 175 miliardi di parametri, addestrato grazie a dataset pubblici, che viene messo a disposizione della ricerca scientifica su Github.
Open Pretrained Transformer è simile a GPT-3, rilasciato da OpenAI nel giugno 2020. Siamo in un ambito di modelli linguistici di grandi dimensioni, sistemi di elaborazione del linguaggio naturale con oltre 100 miliardi di parametri, che, addestrati utilizzando vasti corpi di testo, fino a scala petabyte, in gran parte ripresi da Internet, hanno trasformato la ricerca NLP e AI negli ultimi anni.
Grandi modelli crescono
La creazione di GPT-3, programma realizzato per imitare il linguaggio umano, più grande di qualsiasi altra rete neurale mai sviluppata, ha dato impulso alla tendenza a modelli AI sovradimensionati.
La dimensione di un modello si misura in rapporto al numero di parametri, che costituiscono i valori nella rete neurale, modificati più e più volte nel corso dell’attività di training, e utilizzati per le previsioni. In altri termini, più parametri possiede, più il modello può assorbire informazioni dai dati di addestramento e più accurata sarà la sua performance predittiva.
L’impatto più evidente della svolta determinata da GPT-3 si è riscontrato nel corso del 2021. Sulla scia del modello di OpenAI che ha 175 miliardi di parametri, 10 volte più del predecessore GPT-2, sono nati Jurassic-1 della startup statunitense AI21 Labs con 178 miliardi di parametri, Gopher (Deepmind) con 280 miliardi di parametri, mentre Microsoft e Invidia hanno prodotto Megatron-Turing Natural Language Generation (MT-NLG), dotato di 530 miliardi di parametri.
Allo stesso tempo, si sono mossi i colossi tech cinesi con Huawei che ha sviluppato PanGu, modello linguistico da 200 miliardi di parametri e Baidu che, insieme a Peng Cheng Laboratory, istituto di ricerca di Shenzhen, ha annunciato PCL-BAIDU Wenxin, un modello con 260 miliardi di parametri.
Ma il gigantismo dei grandi modelli linguistici ha toccato l’apice con Switch-Transformer e GLaM di Google con, rispettivamente, 1,6 e 1,2 trilioni di parametri. Di pari passo, l’Accademia di intelligenza artificiale di Pechino ha ufficializzato Wu Dao 2.0, con 1,75 trilioni di parametri.
Accesso ristretto per i ricercatori
I modelli linguistici di sempre più ampia dimensione richiedono grandi quantità di dati e molta potenza di calcolo per essere addestrati. Sono, pertanto, rimasti appannaggio delle società big tech che dispongono di risorse e tecnologia adeguate. Pur potendo interagire con modelli linguistici a pagamento – come nel caso di GPT-3 che OpenAI ha reso disponibile via API (Application Programming Interface) nella sua versione aggiornata e ridotta nelle dimensioni, InstructGPT, – la comunità dei ricercatori non ha accesso completo a queste reti. Il che significa limitare la capacità della ricerca di comprendere meglio il loro funzionamento e correggere errori, difetti e problematiche quali quelle legate all’assorbimento del linguaggio tossico imbevuto di pregiudizi e caratterizzato da distorsioni di vario genere.
Meta, AI responsabile e trasparente
Facebook ha, però, l’ambizione di cambiare lo stato di cose esistente. Differentemente da Google e da OpenAI, che non ha condiviso il modello e il suo codice, Meta AI apre l’accesso a OPT-175B con l’obiettivo di contribuire a migliorare innovazione e ricerca in un settore sempre più fondamentale e strategico. Artefice di questa svolta è Joelle Pineau, la quale ha trasferito nella divisione di intelligenza artificiale della società di Mark Zuckerberg il suo approccio fortemente orientato alla trasparenza nella ricerca e allo sviluppo di una AI responsabile.
In accordo con le linee guida sulla ricerca definite dalla Partnership on AI e dalle regole del National Institute of Standards and Technology (Nist), agenzia del governo Usa, in tema di AI responsabile, Meta AI ha reso pubblici e accessibili sia il codice sia il registro che documenta tutti gli aspetti e i dettagli dello sviluppo del processo di training del modello OPT-175B.
I dati, messi a disposizione senza uso commerciale di tutta la comunità AI (università, società civile e aziende), contengono gli aggiornamenti giorno dopo giorno dell’attività di addestramento (ciò che è stato aggiunto, come e quando, malfunzionamenti e successi). In oltre 100 pagine di note si evidenziano bug, crash e reboot registrati senza soluzione di continuità nel periodo di training che va dall’ottobre 2021 al gennaio 2022.
Sempre a vantaggio della ricerca, saranno rilasciati una serie di modelli a scala ridotta (da 125 milioni, 350 milioni, 1,3 miliardi, 2,7 miliardi, 6,7 miliardi, 13 miliardi, e 30 miliardi di parametri), addestrati sullo stesso set di dati.
L’operazione di trasparenza di Meta AI s’inscrive in un contesto di adesione ai dettami dell’open science, nella cui ottica non conta soltanto la valutazione della performance ma anche quella relativa al raggiungimento di un’AI responsabile. Che implica altresì la considerazione dell’impronta di carbonio dei modelli AI, comprendendovi il costo associato alla fase di sperimentazione in grado, talvolta, di richiedere un consumo di risorse più elevato rispetto alla fase finale del processo di training.
Sotto questo profilo, Meta AI sostiene di aver sviluppato OPT-175B tenendo conto di criteri di efficienza energetica, utilizzando solo 1/7 dell’impronta di carbonio in confronto a quella di GPT-3.
Conclusioni
Contro chi sottolinea i pericoli di un uso allargato e libero dei modelli linguistici di grandi dimensioni, Meta AI contrappone una strategia di trasparenza che punta a favorire l’accesso alla ricerca per permettere di conoscere e affrontare meglio limiti e rischi dello sviluppo dell’intelligenza artificiale.