AI GENERATIVA

I dati sintetici nell’addestramento AI: perché si rischia il collasso



Indirizzo copiato

Una ricerca pubblicata sulla rivista Nature evidenzia i pericoli nell’uso dei dati sintetici per addestrare modelli di intelligenza artificiale, suggerendo la possibile degenerazione e la perdita di utilità nel tempo

Pubblicato il 25 lug 2024



lepre americana

Lo hanno chiamato: “il problema del crollo del modello”, ossia come la mancanza di dati umani limita il progresso dell’AI. Una ricerca pubblicata su Nature il 24 luglio* suggerisce che l’utilizzo di “dati sintetici” generati da computer per addestrare i principali modelli di intelligenza artificiale potrebbe portare a risultati insensati in futuro. L’utilizzo di tali dati potrebbe portare al rapido deterioramento dei modelli di AI.

OpenAI e Microsoft hanno fatto test sull’uso di dati sintetici

Aziende leader nel settore AI, tra cui OpenAI e Microsoft, hanno testato l’uso di dati “sintetici” — informazioni create dai sistemi AI per poi addestrare anche grandi modelli linguistici (LLM) — poiché hanno raggiunto i limiti del materiale prodotto dall’uomo che può migliorare la tecnologia all’avanguardia.

Un test effettuato utilizzando testo sintetico sull’architettura medievale è degenerato in una discussione sulla lepre americana dopo meno di 10 generazioni di output… Il lavoro sottolinea perché gli sviluppatori AI si sono affrettati ad acquistare enormi quantità di dati generati dall’uomo per l’addestramento — e solleva interrogativi su cosa accadrà una volta esaurite queste fonti finite.

“I dati sintetici sono incredibili se riusciamo a farli funzionare”, afferma Ilia Shumailov, autore principale della ricerca. “Ma quello che stiamo dicendo è che i nostri attuali dati sintetici sono probabilmente errati in qualche modo. La cosa più sorprendente è quanto velocemente ciò accade.”

I modelli di AI collassano nel tempo a causa dell’accumulo degli errori

L’articolo esplora la tendenza dei modelli AI a collassare nel tempo a causa dell’accumulo inevitabile e dell’amplificazione degli errori dalle successive generazioni di addestramento. La velocità del deterioramento è correlata alla gravità delle carenze nella progettazione del modello, nel processo di apprendimento e nella qualità dei dati utilizzati.

Le prime fasi del collasso coinvolgono tipicamente una “perdita di varianza”, il che significa che le sottopopolazioni maggioritarie nei dati diventano progressivamente sovra-rappresentate a scapito dei gruppi minoritari. Nelle fasi avanzate del collasso, tutte le parti dei dati possono degenerare in nonsenso.

“I modelli perdono utilità perché sono sopraffatti da tutti gli errori e i fraintendimenti introdotti dalle generazioni precedenti — e dagli stessi modelli,” sostiene Shumailov, che ha condotto il lavoro all’università di Oxford con colleghi da Cambridge, Imperial College London, Edimburgo e Toronto.

I ricercatori hanno scoperto che i problemi erano spesso esacerbati dall’uso di dati sintetici formati su informazioni prodotte dalle generazioni precedenti. Quasi tutti i modelli linguistici addestrati ricorsivamente esaminati hanno iniziato a produrre frasi ripetitive.

Il caso della “lepre americana”

Nel caso della “lepre americana”, il primo testo input esaminava la costruzione delle torri delle chiese inglesi durante il XIV e XV secolo. Nella prima generazione di addestramento, l’output offriva informazioni sulle basiliche a Roma e Buenos Aires. La quinta generazione digrediva nella traduzione linguistica, mentre la nona elencava lagomorfi (lepri e conigli) con colori della coda variabili

Il caso delle razze canine

Un altro esempio riguarda come un modello AI addestrato sul proprio output distorca un set di dati sulle immagini delle razze canine, secondo un articolo correlato su Nature scritto da Emily Wenger della Duke University negli Usa. Inizialmente, tipologie comuni come i golden retriever dominavano mentre razze meno comuni come i dalmata sparivano. Infine, le immagini stesse dei golden retriever diventavano un disastro anatomico con parti del corpo fuori posto.

Secondo Wenger, finora non è stato facile mitigare il problema. Una tecnica già utilizzata dalle principali aziende tecnologiche consiste nell’incorporare una “filigrana” che segnala i contenuti generati dall’AI per escluderli dai set di dati di addestramento. La difficoltà è che questo richiede un coordinamento tra le aziende tecnologiche che potrebbe non essere pratico o commercialmente fattibile.

“Un’implicazione fondamentale del collasso dei modelli è che esiste un vantaggio di chi arriva primo nella costruzione di modelli generativi di AI”, ha detto Wenger. “Le aziende che hanno ottenuto i dati di addestramento dall’internet pre-AI potrebbero avere modelli che rappresentano meglio il mondo reale”.

*Shumailov, I., Shumaylov, Z., Zhao, Y. et al. AI models collapse when trained on recursively generated data. Nature 631, 755–759 (2024). https://doi.org/10.1038/s41586-024-07566-y

Articoli correlati

Articolo 1 di 4