Meta lancia Galactica, enciclopedia basata su intelligenza artificiale, poi la sospende

Molti esperti e scienziati bocciano l’idea, che fornirebbe “assurdità statistiche” e “risultati sbagliati” e sarebbe addirittura “pericolosa” per la scienza. Meta così ha ritirato il modello

I ricercatori di intelligenza artificiale di Meta hanno unito le forze con la comunità open source ML Papers with Code per sviluppare Galactica: un grande modello linguistico in grado di organizzare l’enorme quantità di contenuti negli articoli scientifici.

Galactica può setacciare articoli scientifici alla ricerca di risposte, esplorare la letteratura disponibile e persino scrivere codice scientifico e articoli accademici. Può anche creare citazioni e altri riferimenti per aiutare gli autori nella loro scrittura. Ma esperti di fama mondiale hanno subito criticato l’output come “assurdità statistica”, “pericoloso” e “inaugurerà un’era di falsi scientifici profondi”. Così, dopo alcuni giorni Galactica è stato ritirato.

I ricercatori erano stati ambiziosi, addestrando Galactica su 48 milioni di articoli, libri di testo e appunti di lezioni, insieme a proteine, siti web scientifici ed enciclopedie.

Sono stati creati cinque modelli Galactica che variano in livelli di parametri da 125 milioni fino a 120 miliardi. Le prestazioni di Galactica “aumentano senza problemi con la scala”, secondo un documento dei ricercatori di intelligenza artificiale. Tutti i modelli sono open source e disponibili gratuitamente su GitHub.

Indice degli argomenti:

Galactica vs GPT-3

In termini di benchmark, gli sviluppatori di Galactica affermano che questo supera altri modelli di linguaggio di grandi dimensioni addestrati con dati di testo generici.

“Su test di conoscenza tecnica, come le equazioni LaTeX, Galactica supera l’ultimo GPT-3 del 68,2% contro il 49%”, si legge nel documento.

I ricercatori affermano inoltre che Galactica si comporta bene nel ragionamento, superando Chinchilla di DeepMind nel test di benchmark MMLU matematico dal 41,3% al 35,7% e PaLM 540B di Google su MATH con un punteggio del 20,4% contro l’8,8%.

E nonostante non sia addestrato su un corpus generale, Galactica sarebbe in grado di superare BLOOM e OPT-175B nel test BIG-bench.

“Riteniamo che questi risultati dimostrino il potenziale dei modelli linguistici come nuova interfaccia per la scienza. Apriamo il modello a beneficio della comunità scientifica”, scrivono gli autori.

Galactica genera carte false?

Dopo aver testato Galactica, tuttavia, diversi esperti hanno condiviso pubblicamente le loro preoccupazioni.

“Galactica potrebbe inaugurare un’era di falsi scientifici profondi”, ha detto Michael Black, direttore del rinomato Max Planck Institute for Intelligent Systems, via Twitter. Le risposte emerse da Galactica possono essere errate ma scritte in un modo che è “grammaticalmente corretto e sembra reale”, ha detto.

Black ha detto di aver chiesto al Galactica dei fatti che conosce personalmente e “in tutti i casi, il risultato era sbagliato o di parte, ma appariva giusto e autorevole. Penso che sia pericoloso”.

“Offre una scienza dal suono autorevole che non è fondata sul metodo scientifico. Produce pseudo-scienza basata sulle proprietà statistiche della “scrittura” scientifica. La scrittura scientifica grammaticale non è la stessa cosa che fare scienza. Ma sarà difficile distinguere”, ha scritto Black.

Black ha chiesto al modello informazioni sulla stima di avatar umani 3D realistici in abbigliamento da una singola immagine o video. Il modello offriva “un documento fittizio e un repository GitHub associato” da un autore reale, Albert Pumarola dei Reality Labs di Meta.

L’istanza si è verificata di nuovo quando a Black è stato dato un abstract da un documento fittizio da un vero ricercatore di intelligenza artificiale di Google, Thiemo Alldieck.

“Alldieck e Pumarola riceveranno citazioni per articoli che non hanno mai scritto. Questi documenti saranno poi citati da altri in documenti reali. Sarà il caos”.

Anche il famoso ingegnere del software Grady Booch, uno dei tre che ha sviluppato l’Unified Modeling Language, ha delle preoccupazioni. Ha descritto Galactica come “poco più di una sciocchezza statistica su larga scala”.

La prof.ssa Emily M. Bender, direttrice del Laboratorio di linguistica computazionale dell’Università di Washington, ha affermato che “non sorprende affatto” che Galactica generi un testo che è sia “fluente” sia “sbagliato… Era del tutto prevedibile che si sarebbe comportato in questo modo”, ha aggiunto.

Galactica stessa pubblica avvertimenti sui risultati. In ogni generazione, l’utente può vedere una stampa finale che dice: “ATTENZIONE: gli output potrebbero essere inaffidabili! I modelli linguistici sono inclini ad avere allucinazioni nel testo”.