Non è un mistero che gli attuali grandi modelli di intelligenza artificiale, pensiamo in particolar modo a quelli che fanno notizia come GPT-3, DALL-E o LaMDA, abbiano bisogno di enormi risorse computazionali per essere addestrati. Negli ultimi tempi, tuttavia, sono arrivati dal settore alcuni segnali che potrebbero indicare un’inversione di tendenza. Ad esempio, il rilascio da parte di Meta di OPT-175B (Open Pretrained Transformer), un modello linguistico delle stesse dimensioni di GPT-3, ma addestrato con dataset pubblici e messo a disposizione dei ricercatori in modalità abbastanza aperta. Ma la notizia del momento, che potrebbe davvero rappresentare un punto di svolta per come avviene la ricerca su questi grandi modelli AI, è il rilascio di BLOOM LM da parte di BigScience.
BLOOM e la rivoluzione open
BLOOM LM è l’acronimo di BigScience Large Open-science Open-access Multilingual Language Model, un grande modello linguistico di 176 miliardi di parametri (paragonabile quindi a GPT-3, che ne ha 175 miliardi) sviluppato da BigScience, un progetto nato dalla collaborazione fra Huggingface, una popolare community dove è possibile sviluppare, addestrare e ospitare modelli di machine learning, e alcune istituzioni francesi.
L’alto costo delle reti neurali
Una rete neurale composta da miliardi o anche bilioni di parametri, come ad esempio il modello linguistico cinese Wu Dao 2.0 che di parametri ne ha 1,75 bilioni, richiede risorse per decine di milioni di euro. Con costi così imponenti anche a causa dell’energia necessaria per rendere possibile questo addestramento, gli unici attori in grado di realizzare e addestrare un grande modello di intelligenza artificiale sono le multinazionali, in genere le note Big Tech come Google e Microsoft, e i governi.
Questa barriera pone seri limiti alle possibilità di ricercatori, università e aziende normali, che si trovano tagliati fuori da questo importante filone dell’intelligenza artificiale. Per questo motivo, nel corso degli ultimi anni si è assistito alla proliferazione di modelli più piccoli e meno complessi, cosa che ha permesso ad alcune università ed enti di ricerca pubblici o privati di competere in ambiti di nicchia, ma questo non è stato sufficiente per rendersi autonomi dallo strapotere dei grandi modelli linguistici (LLM, large language models), che col tempo hanno iniziato ad assumere qualità multimodali, ad esempio con la gestione simultanea di testo e immagini.
Non aiuta la situazione, poi, il fatto che le aziende produttrici dei LLM abbiano sempre protetto le loro creazioni in maniera molto attenta, rendendole accessibili solo in modalità limitate, attraverso API (Application Programming Interface) o interfacce web, spesso rifiutando l’accesso alla loro architettura e ai dataset usati per l’addestramento.
BLOOM, come nascita l’alternativa
In questo contesto, è la storia di come è nato e come si è sviluppato BigScience che dà l’idea di come la collaborazione fra ricercatori privati e pubblici possa rappresentare un potenziale nuovo polo di sviluppo per grandi iniziative di intelligenza artificiale. All’inizio, come spiega proprio il sito di BigScience, ci fu una discussione a tre, fra Thomas Wolf di HuggingFace, Stéphane Requena di GENCI (Grand équipement national de calcul intensif) e Pierre-François Lavallee di IDRIS (Institut du développement et des ressources en informatique scientifique). Da notare che GENCI e IDRIS gestiscono Jean Zay, il supercomputer HPE SGI 8600 da 28 petaflop al secondo, ubicato alle porte di Parigi e costato 25 milioni di euro.
Figura 1: Il supercomputer francese Jean Zay. Copyright Photothèque CNRS/Cyril Frésillon
Il progetto voleva dimostrare che un altro modo di sviluppare grandi modelli linguistici era possibile. Un modo che non si basasse su interessi economici, che non limitasse al pubblico l’accesso trasparente ai dataset, che non si concentrasse solo sulla lingua inglese. Nelle premesse vi è il riconoscimento dei grandi modelli linguistici come di una importante tecnologia trasformativa, che avrà impatti estremamente profondi sulla società e che, per questo motivo, non può essere lasciata nelle mani (il testo originale le descrive come ‘stranglehold’, ovvero in una morsa soffocante) delle aziende Big Tech, ma che deve essere messa a disposizione di tutti in modalità open source. L’idea, quindi, è stata quella di creare un grande progetto multi-stakeholder, ispirato dal CERN, dove ricercatori privati e pubblici potessero condividere risorse hardware, know-how e conoscenze scientifiche. Quest’ultimo aspetto ha anche un importante significato politico: non si tratta solo di fare ricerca ma anche di allentare la sovranità nazionale sui grandi modelli linguistici, particolarmente rilevante quando si tratta di tecnologie così fondamentali.
Nel febbraio del 2021 il progetto ha ricevuto la donazione di 5 milioni di ore di computazione su Jean Zay, iniziando ben presto a raccogliere l’interesse di oltre 200 ricercatori da tutto il mondo. Alla fine, il progetto, che ha preso la forma di un workshop, poteva contare su oltre mille ricercatori da più di 250 organizzazioni in 60 Paesi.
BLOOM è stato realizzato seguendo criteri di trasparenza che consentono facilmente l’analisi dei bias, dell’impatto ambientale, dei limiti operativi, con la presenza di checkpoint che rendono possibile agli studiosi trovare risposta a domande di ricerca che con altri modelli semplicemente non è possibile ottenere. Questo perché il modello linguistico vuole essere solo un punto di partenza per consentire a una più ampia comunità di ricerca internazionale di realizzare in futuro esperimenti di collaborazione scientifica su larga scala incentrati sull’intelligenza artificiale.
Come funziona BLOOM
Nel funzionamento BLOOM non ha nulla da invidiare ai più conosciuti modelli linguistici, potendo effettuare come GPT-3 molti task con zero-shot learning e few-shot learning, ovvero la capacità di offrire risposte in certi ambiti contando su un limitatissimo numero di esempi in addestramento, così come riassunti, calcoli, risposta a domande e – come GitHub Copilot – offrire aiuto alla programmazione. Il modello è stato addestrato su 384 GPU Nvidia Tesla A100 con un dataset di oltre 1,6 terabyte di dati in 46 lingue diverse e secondo BigScience offre simili livelli di accuratezza ma anche di pregiudizio.
Un altro elemento interessante di questo progetto è la licenza d’uso con cui viene distribuito. Gli utilizzatori di BLOOM non possono usare il modello per attività di polizia, giustizia, profilazione criminale, immigrazione, mitigando quindi la possibilità che un errore o un bias del modello linguistico causi a qualche essere umano problemi di natura giuridica o criminale. Ma il sistema non dovrà neanche essere usato per effettuare o interpretare diagnosi mediche o per automatizzare decisioni che potrebbero impattare sui diritti di una persona, inoltre per ogni testo generato da BLOOM si dovrà fare menzione che esso è stato creato da una macchina: non si potrà far creare i testi a BLOOM spacciandoli per propri (una direzione in cui si stanno già muovendo diverse proposte di legge). La comunità ha voluto così creare quella che definisce una Licenza AI Responsabile per limitare i danni e gli usi sconsiderati della tecnologia. Ovviamente, la tenuta di questa licenza è tutta da vedere e andrà testata sul campo.
Video: Artificially Important
Open source: una nuova tendenza per i grandi modelli?
Il rilascio ‘open’ di importanti modelli AI sta iniziando a prendere piede anche presso le aziende Big Tech. La già citata Meta poche settimane fa ha reso open source un altro modello di traduzione, questa volta un sistema in grado di funzionare con 200 lingue, mentre i ricercatori di Microsoft AI hanno fatto la stessa cosa con GODEL (Grounded Open Dialogue Language Model) un modello linguistico specifico per i dialoghi.
È innegabile, comunque, che per essere creati e addestrati i grandi modelli AI necessitano sempre di imponenti risorse computazionali, nonostante la ricerca spinga verso l’efficienza. Non bisogna dimenticare che BLOOM è stato realizzato grazie a una donazione di risorse da parte del governo francese, cosa che va a confermare il concetto espresso all’inizio di questo articolo: solo le grandissime aziende e i governi sono in grado di realizzare grandi modelli AI. La speranza è che questa nuova tendenza a realizzare modelli AI trasparenti e open prenda piede anche presso le aziende private, ma che allo stesso tempo si creino le condizioni per realizzare un’infrastruttura pubblica che consenta la nascita di importanti progetti AI anche al di fuori dei soliti colossi multinazionali.