approfondimento

ChatGPT Search sbaglia le citazioni e le fonti, ecco le prove



Indirizzo copiato

Lo rivelano una serie di test condotti dal Tow Center: nonostante le dichiarazioni di collaborazione con i media, i contenuti degli editori vengono spesso citati erroneamente, sollevando preoccupazioni sulla fiducia e la sicurezza del marchio

Pubblicato il 3 dic 2024



ChatGPT Search

ChatGPT Search, posizionato come concorrente di motori di ricerca come Google e Bing, è stato lanciato con un comunicato stampa di OpenAI che vantava di aver “collaborato ampiamente con l’industria delle notizie” e di aver “ascoltato attentamente il feedback” di alcune organizzazioni giornalistiche con cui ha firmato accordi di licenza. A differenza del lancio originale di ChatGPT, due anni fa, quando i publisher scoprirono che OpenAI aveva utilizzato i loro contenuti senza avviso o consenso per addestrare i suoi modelli, questo potrebbe sembrare un miglioramento.

OpenAI sottolinea che permette agli editori di decidere se vogliono che i loro contenuti siano inclusi nei risultati di ricerca specificando le loro preferenze in un file “robots.txt” sul proprio sito web.

Sebbene l’azienda presenti l’inclusione nella sua ricerca come un’opportunità per “raggiungere un pubblico più ampio”, un’analisi del Tow Center rileva che gli editori affrontano il rischio che i loro contenuti vengano attribuiti o rappresentati in modo errato, indipendentemente dal fatto che consentano l’accesso ai crawler di OpenAI.

Per comprendere meglio le conseguenze delle scelte che gli editori devono affrontare su come i loro contenuti verranno visualizzati (o meno) dal prodotto di ricerca di ChatGPT, il Tow Center ha selezionato casualmente venti editori, rappresentando un mix di quelli che hanno accordi con OpenAI, quelli coinvolti in cause legali contro l’azienda, nonché editori non affiliati che hanno consentito o bloccato il crawler di ricerca di ChatGPT.

ChatGPT Search: test di accuratezza

Tow Center ha incaricato il chatbot di identificare la fonte di citazioni da dieci articoli diversi per ciascuna pubblicazione. Sono state scelte citazioni che, se incollate su Google o Bing, avrebbero restituito l’articolo sorgente tra i primi tre risultati e valutato se il nuovo strumento di ricerca di OpenAI avrebbe identificato correttamente l’articolo che era la fonte di ciascuna citazione. Questo test è stato scelto perché ha permesso di valutare sistematicamente la capacità del chatbot di accedere e fare riferimento ai contenuti deli editori in modo accurato.

Tre esempi di risposte di ChatGPT alle domande, con diversi gradi di correttezza.

Risultati preoccupanti

Ciò che i ricercatori del Tow Center hanno trovato non è promettente per gli editori di notizie. Sebbene OpenAI enfatizzi la sua capacità di fornire agli utenti “risposte tempestive con link a fonti web rilevanti”, l’azienda non fa alcun impegno esplicito per garantire l’accuratezza di tali citazioni. Questa è un’omissione notevole per gli editori che si aspettano che i loro contenuti vengano referenziati e rappresentati fedelmente. Gli esperimenti iniziali con lo strumento hanno rivelato numerosi casi in cui i contenuti dei publisher sono stati citati in modo inaccurato, sollevando preoccupazioni sulla affidabilità delle funzioni di attribuzione delle fonti dello strumento.

In totale, sono state estratte duecento citazioni da venti pubblicazioni e chiesto a ChatGPT di identificare le fonti di ciascuna citazione. I ricercatori hanno osservato uno spettro di accuratezza nelle risposte: alcune risposte erano completamente corrette, molte erano completamente sbagliate e alcune si collocavano nel mezzo.

Risultati dell’analisi del Tow Center

Possibili danni alla reputazione degli editori

Oltre a ingannare gli utenti, la falsa sicurezza di ChatGPT potrebbe rischiare di causare danni alla reputazione degli editori. Nell’esempio che segue, ChatGPT ha erroneamente attribuito una citazione da una lettera al direttore pubblicata sull’Orlando Sentinel il 19 novembre a un articolo del Time pubblicato originariamente il 9 novembre con il titolo “What Trump’s Win Means for LGBTQ+ Rights”. Più di un terzo delle risposte di ChatGPT alle nostre richieste includeva citazioni errate come questa.

chatGPT Search sbaglia citazioni
ChatGPT attribuisce erroneamente un articolo dell’Orlando Sentinel alla rivista Time

Anche se questo problema probabilmente non è unico per le query sui contenuti degli editori, ha implicazioni per gli aspetti a cui gli editori tengono, come l’affidabilità, la sicurezza del marchio e il riconoscimento del loro lavoro.

ChatGPT Search: fonti copiate

OpenAI sostiene di “mettere in contatto le persone con contenuti originali e di alta qualità provenienti dal web”, ma la sua incapacità di accedere ai contenuti bloccati la porta a trovare soluzioni che spesso si traducono in pratiche scorrette.
Ad esempio, poiché il New York Times, che è in causa contro OpenAI, ha bloccato tutti i crawler dell’azienda, ChatGPT non dovrebbe essere in grado di analizzare i suoi contenuti per formulare le proprie risposte.

chatGPT Search sbaglia citazioni

Tuttavia, quando gli è stato chiesto di identificare la provenienza di una citazione tratta da un articolo interattivo del Times su una specie di balena in via di estinzione, invece di rifiutarsi di rispondere, il chatbot ha citato un sito web chiamato DMS Retail, che aveva plagiato l’intero articolo originale e lo aveva ripubblicato senza attribuirne la fonte e senza includerne l’efficace narrazione visiva. Ciò solleva seri interrogativi sulla capacità di OpenAI di filtrare e convalidare la qualità e l’autenticità delle sue fonti di dati, soprattutto quando si tratta di contenuti senza licenza o plagiati.

Casi di attribuzione errata

Quando è stato chiesta a ChatGPT la stessa domanda più volte, ha restituito ogni volta una risposta diversa. Questa incoerenza deriva probabilmente dall’impostazione predefinita della “temperatura” del modello linguistico sottostante, GPT-4o. La temperatura controlla la casualità dei risultati del modello: temperature più alte portano a risposte variabili, mentre temperature più basse portano a risposte più deterministiche.

Quando viene richiesto lo stesso quesito più volte, ChatGPT può rispondere correttamente in un’occasione e in modo errato in un’altra.

Nell’esempio precedente, è stato chiesto a ChatGPT due volte di identificare una citazione da un articolo pubblicato sul Washington Post l’8 ottobre 2024. La prima volta ha citato la data sbagliata e ha attribuito l’articolo al New York Times senza allegare una fonte. La seconda volta ha citato l’articolo corretto, ha identificato la data, ha attribuito correttamente l’articolo al Washington Post e ha fornito un link funzionante all’articolo.

chatGPT Search sbaglia citazioni
Quando viene richiesta la stessa domanda più volte, ChatGPT potrebbe rispondere correttamente in un’occasione e non correttamente in un’altra.


Quando uno strumento di ricerca opera con un’impostazione termica, sacrifica la coerenza a favore della variazione. Sebbene la varietà di fonti possa essere preziosa, privilegiarla rispetto alla correttezza o alla pertinenza può portare a risultati incoerenti e imprecisi. Questo è un altro fattore che potrebbe danneggiare l’affidabilità dei risultati e delle citazioni.

L’illusione di avere il controllo

Dai test è emerso che nessun editore, indipendentemente dal grado di affiliazione con OpenAI, è stato risparmiato da rappresentazioni imprecise dei suoi contenuti in ChatGPT.
La tabella seguente indica l’affiliazione di ciascun editore del set di dati con OpenAI, se i contenuti dell’editore erano accessibili al crawler di ricerca di OpenAI attraverso il loro file “robots.txt” e l’accuratezza di ChatGPT nel fare riferimento ai loro contenuti. L’accuratezza è misurata in base al fatto che il chatbot abbia identificato correttamente il nome dell’editore, l’URL e la data dell’articolo, con risultati che mostrano il numero di citazioni corrette, parzialmente corrette ed errate per ogni editore.


Sebbene sia necessaria una sperimentazione più rigorosa per comprendere la reale frequenza degli errori, i test iniziali mostrano una grande variabilità nell’accuratezza dei risultati di ChatGPT, che non corrisponde perfettamente allo stato di crawler degli editori o alla loro affiliazione a OpenAI. Anche per gli editori che hanno abilitato l’accesso a tutti i crawler di OpenAI (OAI-SearchBot, ChatGPT-User e GPTBot), il chatbot non restituisce in modo affidabile informazioni accurate sui loro articoli.

Sia il New York Post che The Atlantic, per esempio, hanno stipulato accordi di licenza con OpenAI e hanno abilitato l’accesso a tutti i crawler, ma i loro contenuti sono stati spesso citati in modo impreciso o travisato.

Le implicazioni per gli editori

Come altre piattaforme hanno fatto in passato, OpenAI sta introducendo un prodotto che probabilmente avrà conseguenze significative sulle modalità di fruizione dei contenuti giornalistici da parte del pubblico, ma agli editori viene data poca libertà di azione.
Interpellato per un commento sui risultati dei test, un portavoce di OpenAI ha dichiarato: “L’attribuzione impropria è difficile da affrontare senza i dati e la metodologia che il Tow Center ci ha nascosto, e lo studio rappresenta un test atipico del nostro prodotto. Sosteniamo gli editori e i creatori aiutando 250 milioni di utenti settimanali di ChatGPT a scoprire contenuti di qualità attraverso riassunti, citazioni, link chiari e attribuzione. Abbiamo collaborato con i partner per migliorare l’accuratezza delle citazioni in linea e rispettare le preferenze degli editori, compresa l’abilitazione del modo in cui appaiono nella ricerca gestendo OAI-SearchBot nel loro robots.txt. Continueremo a migliorare i risultati di ricerca. Il Tow Center ha descritto a OpenAI la nostra metodologia e le nostre osservazioni, ma non ha condiviso i dati dei nostri risultati prima della pubblicazione”.

Conclusioni

Se OpenAI intende seriamente sostenere una collaborazione in buona fede con gli editori di notizie – sostiene il Tow Center – farebbe bene a garantire che il suo prodotto di ricerca rappresenti e citi i loro contenuti in modo accurato e coerente e indichi chiaramente quando non è possibile accedere alla risposta a una query dell’utente.

Articoli correlati

Articolo 1 di 4