I modelli di linguaggio di grandi dimensioni (LLM) diventano più subdolamente razzisti con l’intervento umano: i ricercatori hanno scoperto che certi pregiudizi si aggravano man mano che i modelli si espandono. Dalla loro nascita, è stato evidente che i grandi modelli di linguaggio come ChatGPT assorbono visioni razziste dalle milioni di pagine internet su cui vengono addestrati. Gli sviluppatori hanno cercato di renderli meno tossici. Tuttavia, nuove ricerche suggeriscono che tali sforzi, soprattutto con l’espansione dei modelli, stanno solo limitando le visioni razziste esplicite, mentre permettono a stereotipi più velati di diventare più forti e meglio nascosti.
Pregiudizi negli LLM: un test su due diversi tipi di inglese utilizzati negli Usa
I ricercatori di cinque università americane – Allen Institute for AI, University of Oxford, LMU Munich, Stanford University, The University of Chicago – hanno chiesto a cinque modelli AI – tra cui GPT-4 di OpenAI e vecchi modelli di Meta e Google – di formulare giudizi su oratori che utilizzavano l’inglese afroamericano (AAE). La razza dell’oratore non era menzionata nelle istruzioni. Anche quando le due frasi avevano lo stesso significato, i modelli erano più propensi ad applicare aggettivi come “sporco”, “pigro” e “stupido” agli oratori AAE rispetto agli oratori dell’inglese standard americano (SAE). I modelli associavano gli oratori AAE a lavori meno prestigiosi (o non li associavano affatto a un lavoro), e quando veniva chiesto loro di esprimere un giudizio su un ipotetico imputato, erano più propensi a raccomandare la pena di morte.
Un risultato ancora più notevole potrebbe essere un difetto che lo studio evidenzia nei modi in cui gli studiosi cercano di risolvere tali pregiudizi. Per eliminare i modelli dalle visioni odiose, aziende come OpenAI, Meta e Google utilizzano l’addestramento con feedback, in cui i lavoratori umani regolano manualmente il modo in cui il modello risponde a certi prompt. Questo processo, spesso chiamato “allineamento”, mira a ricalibrare le milioni di connessioni nella rete neurale e a far aderire meglio il modello ai valori desiderati. Il metodo funziona bene per combattere gli stereotipi espliciti, e le aziende leader lo hanno impiegato per quasi un decennio. Se gli utenti sollecitavano GPT-2, ad esempio, a nominare stereotipi sulle persone nere, era probabile che elencasse “sospetto”, “radicale” e “aggressivo”, ma GPT-4 non risponde più con quelle associazioni, secondo lo studio.
Tuttavia il metodo fallisce sugli stereotipi velati che gli studiosi hanno evidenziato quando utilizzavano l’inglese afroamericano nel loro studio, pubblicato su arXiv e non ancora sottoposto a revisione paritaria. Questo è in parte perché le aziende sono state meno consapevoli del pregiudizio dialettale come problema.
Pregiudizi negli LLM: la scoperta è un avvertimento ai creatori di chatbot
È anche più facile insegnare a un modello a non rispondere a domande esplicitamente razziste che a non rispondere negativamente a un intero dialetto. “L’addestramento con feedback insegna ai modelli a considerare il loro razzismo”, dice Valentin Hofmann, ricercatore presso l’Allen Institute for AI e coautore dello studio. “Ma il pregiudizio dialettale apre un livello più profondo.” Avijit Ghosh, ricercatore etico presso Hugging Face non coinvolto nella ricerca, sostiene che la scoperta mette in discussione l’approccio che le aziende stanno adottando per risolvere il bias. “Questo allineamento – dove il modello si rifiuta di produrre output razzisti – è solo un filtro fragile che può essere facilmente infranto”, dice. Gli stereotipi velati si sono anche rafforzati con l’aumento delle dimensioni dei modelli, hanno scoperto i ricercatori.
Questa scoperta offre un potenziale avvertimento ai creatori di chatbot come OpenAI, Meta e Google mentre si affrettano a rilasciare modelli sempre più grandi. I modelli diventano generalmente più potenti ed espressivi man mano che aumenta la quantità dei loro dati di addestramento e il numero dei loro parametri, ma se questo peggiora il pregiudizio razziale velato, le aziende dovranno sviluppare strumenti migliori per combatterlo.
Non è ancora chiaro se aggiungere più AAE ai dati di addestramento o rendere gli sforzi di feedback più robusti sarà sufficiente. “Questo sta rivelando fino a che punto le aziende stanno giocando a whack-a-mole, cercando solo di colpire il prossimo pregiudizio che l’ultimo reporter o studio ha coperto”, dice Pratyusha Ria Kalluri, candidata al dottorato a Stanford e coautrice dello studio. “I pregiudizi velati mettono davvero in discussione questo come un approccio ragionevole.” Gli autori dello studio utilizzano esempi particolarmente estremi per illustrare le potenziali implicazioni del pregiudizio razziale, come chiedere all’AI di decidere se un imputato dovrebbe essere condannato a morte.
Ma, nota Ghosh, l’uso discutibile dei modelli AI per aiutare a prendere decisioni critiche non è fantascienza. Succede oggi. Strumenti di traduzione guidati dall’AI vengono utilizzati quando si valutano i casi di asilo negli Stati Uniti, e il software di previsione del crimine è stato utilizzato per giudicare se gli adolescenti dovrebbero essere messi in libertà vigilata. I datori di lavoro che utilizzano ChatGPT per esaminare le domande potrebbero discriminare i nomi dei candidati sulla base della razza e del genere, e se usano modelli per analizzare ciò che un candidato scrive sui social media, un pregiudizio contro l’AAE potrebbe portare a errori di giudizio.
“Gli autori sono modesti nell’affermare che i loro casi d’uso nel far scegliere all’LLM i candidati o giudicare i casi penali sono esercizi costruiti”, dice Ghosh. “Ma io direi che la loro paura è assolutamente fondata.”