I chatbot possono “allucinare” più spesso di quanto molti si rendano conto. Quando riassumono fatti, ChatGPT inventa circa il 3% delle volte, secondo la ricerca della startup Vectara. Il tasso di un sistema Google è del 27%. Quando la startup OpenAI ha svelato il suo chatbot ChatGPT, alla fine dello scorso anno, milioni di persone sono rimaste stupite dal modo in cui rispondeva alle domande, scriveva poesie e discuteva quasi qualsiasi argomento in maniera umana. Tuttavia, la maggior parte delle persone ha tardato a rendersi conto che questo nuovo tipo di chatbot spesso inventa le cose.
Quando Google ha introdotto un chatbot simile alcune settimane dopo, Bard, questo ha sparato sciocchezze sul telescopio James Webb. Il giorno successivo, il nuovo chatbot Bing di Microsoft ha fornito una serie di informazioni false sulla vita notturna messicana e sulla cantante Billie Eilish.
A marzo, ChatGPT ha citato una mezza dozzina di cause giudiziarie false mentre scriveva un memoriale legale di 10 pagine che un avvocato ha presentato a un giudice federale a Manhattan.
Cosa rivela lo studio della startup Vectara
Ora una nuova startup, Vectara, fondata da ex dipendenti Google, sta cercando di capire quanto spesso i chatbot si discostino dalla verità. La ricerca dell’azienda stima che anche in situazioni progettate per impedirlo, i chatbot inventano informazioni almeno il 3% delle volte – e fino al 27%. Gli esperti chiamano questo comportamento dei chatbot “allucinazione”. Potrebbe non essere un problema per le persone che smanettano con i chatbot sui loro computer personali, ma è un problema serio per chiunque utilizzi questa tecnologia con documenti giudiziari, informazioni mediche o dati aziendali sensibili.
Poiché questi chatbot possono rispondere a quasi qualsiasi richiesta in un numero illimitato di modi, non c’è modo di determinare definitivamente quanto spesso allucinano. “Dovresti guardare tutte le informazioni del mondo”, ha detto Simon Hughes, il ricercatore di Vectara che ha guidato il progetto. Hughes e il suo team hanno chiesto a questi sistemi di eseguire un singolo compito semplice che può essere facilmente verificato: riassumere articoli di notizie. Eppure, i chatbot continuavano a inventare informazioni. “Abbiamo dato al sistema da 10 a 20 fatti e abbiamo chiesto un riassunto di quei fatti”, ha detto Amr Awadallah, l’amministratore delegato di Vectara ed ex dirigente Google. “Il fatto che il sistema possa ancora introdurre errori è un problema fondamentale.”
Tassi di allucinazione più alti con compiti diversi dal riassumere
I ricercatori sostengono che quando questi chatbot eseguono altri compiti – oltre a quello di riassumere – i tassi di allucinazione potrebbero essere più alti. La ricerca ha anche mostrato che i tassi di allucinazione variano notevolmente tra le principali aziende AI. Le tecnologie OpenAI hanno il tasso più basso, circa il 3%. I sistemi di Meta, che possiede Facebook e Instagram, si aggirano intorno al 5%. Il sistema Claude 2 offerto da Anthropic ha superato l’8%. Google Palm chat ha il tasso più alto, 27%.
Una portavoce di Anthropic, Sally Aldous, ha affermato: “Rendere i nostri sistemi utili, onesti e innocui, che include evitare allucinazioni, è uno dei nostri obiettivi principali come azienda.” Google ha rifiutato di commentare e OpenAI e Meta non hanno risposto immediatamente alle richieste di commento.
Con questa ricerca, Hughes e Awadallah vogliono mostrare alle persone che devono essere diffidenti delle informazioni provenienti dai chatbot e anche del servizio che Vectara vende alle aziende. Molte aziende stanno ora offrendo questo tipo di tecnologia per uso aziendale.
Chi è Vectara
Con sede a Palo Alto, in California, Vectara è una startup composta da 30 persone supportata da 28,5 milioni di dollari in finanziamenti seed. Uno dei suoi fondatori, Amin Ahmad, un ex ricercatore Google in intelligenza artificiale, lavora con questo tipo di tecnologia dal 2017 quando era incubata all’interno di Google e altre poche aziende. Proprio come il chatbot Bing di Microsoft può recuperare informazioni dall’internet aperto, il servizio Vectara può recuperare informazioni dalla collezione privata di email documenti e altri file dell’azienda. I ricercatori sperano anche che i loro metodi – che stanno condividendo pubblicamente e continueranno ad aggiornare – aiuteranno a stimolare gli sforzi in tutta l’industria per ridurre le allucinazioni.
OpenAI e Google stanno cercando di minimizzare il problema
OpenAI, Google e altri stanno lavorando per minimizzare il problema attraverso una varietà di tecniche, anche se non è chiaro se possono eliminare il problema. “Un buon paragone è un’auto a guida autonoma”, ha detto Philippe Laban, ricercatore di Salesforce che ha a lungo esplorato questo tipo di tecnologia. “Non puoi impedire a un’auto a guida autonoma di schiantarsi. Ma puoi cercare di assicurarti che sia più sicura di un conducente umano.” I chatbot come ChatGPT sono guidati dagli LLM, che imparano a fare una cosa in particolare: indovinare la prossima parola in una sequenza di parole. Poiché internet è piena di informazioni false, questi sistemi ripetono le stesse falsità. Si basano anche sulle probabilità: qual è la possibilità matematica che la prossima parola sia “drammaturgo”? Di tanto in tanto indovinano erroneamente. La nuova ricerca da Vectara mostra come ciò può accadere. Nel riassumere articoli di notizie, i chatbot non ripetono falsità da altre parti di internet; semplicemente sbagliano il riassunto.
I metodi per ridurre il fenomeno: apprendimento con rinforzo e feedback umano
Se fai una domanda al chatbot, può chiamare il motore di ricerca Bing di Microsoft ed eseguire una ricerca su internet. Ma non ha modo di individuare la risposta corretta. Prende i risultati della ricerca su internet e li riassume per te. A volte, questo riassunto è molto difettoso. Alcuni bot citeranno indirizzi internet completamente inventati. Aziende come OpenAI, Google e Microsoft hanno sviluppato modi per migliorare l’accuratezza delle loro tecnologie. OpenAI, ad esempio, cerca di affinare la sua tecnologia con feedback da tester umani, che valutano le risposte del chatbot, separando risposte utili e veritiere da quelle che non lo sono. Poi, usando una tecnica chiamata apprendimento per rinforzo, il sistema passa settimane ad analizzare le valutazioni per capire meglio cosa è un fatto e cosa è finzione.
Ma i ricercatori avvertono che l’allucinazione dei chatbot non è un problema facile da risolvere. Poiché i chatbot imparano dai modelli nei dati e operano secondo le probabilità, si comportano in modi indesiderati almeno parte del tempo. Per determinare quanto spesso i chatbot allucinavano nel riassumere articoli di notizie, i ricercatori di Vectara hanno utilizzato un altro grande modello linguistico per controllare l’accuratezza di ogni riassunto. Questo era l’unico modo efficiente per controllare un numero così grande di riassunti.
Ma James Zou, professore di informatica a Stanford, ha detto che questo metodo ha una riserva. Anche il modello linguistico che fa il controllo può fare errori. “Il rilevatore di allucinazioni potrebbe essere ingannato – o allucinare se stesso”, ha detto. Insomma, un cane che si morde la coda…