ai generativa

GPT-4.5 e Llama 3.1 sono i primi LLM a superare il test di Turing



Indirizzo copiato

Una recente ricerca ha dimostrato che modelli linguistici di grandi dimensioni (LLM) avanzati sono riusciti a superare il classico test di Turing a tre partecipanti, se istruiti ad adottare una personalità simile a quella umana. Questo risultato, ottenuto in uno studio indipendente dell’Università della California con due tipi di prompt, solleva importanti questioni sulla natura dell’intelligenza artificiale e sulle sue implicazioni sociali ed economiche

Pubblicato il 7 apr 2025



LLM test Turing

GPT-4.5 e LLaMa-3.1-405B sono i primi LLM a superare con successo il test di Turing.

In una ricerca rigorosa e controllata, sono stati valutati quattro sistemi: ELIZA (un chatbot basato su regole degli anni ’60), GPT-4o, LLaMa-3.1-405B e GPT-4.5. I risultati hanno mostrato che, quando istruito tramite un “prompt” ad adottare una personalità umana specifica (un giovane introverso, esperto di cultura internet e che usa gergo), GPT-4.5 è stato giudicato umano nel 73% dei casi, una percentuale significativamente superiore a quella in cui gli interrogatori hanno identificato correttamente il vero partecipante umano. Anche LLaMa-3.1, con lo stesso prompt, è stato giudicato umano nel 56% dei casi, una percentuale non significativamente diversa dal tasso di identificazione degli umani.

LLM test turing

Al contrario, i modelli di base ELIZA e GPT-4o, senza istruzioni specifiche sulla personalità, hanno ottenuto percentuali di successo significativamente inferiori al caso (23% e 21% rispettivamente).

LLM test Turing
Quattro esempi di giochi tratti dagli studi Prolific (a, b e d) e Undergraduate (c). In ogni pannello, una conversazione è con un testimone umano mentre l’altra è con un sistema di intelligenza artificiale. I verdetti degli degli interroganti e le identità della verità di base per ogni conversazione. Una versione dell’esperimento può essere consultata all’indirizzo turingtest.live

Lo studio, condotto da Cameron R. Jones e Benjamin K. Bergen del Dipartimento di Scienze Cognitive dell’Università della California, San Diego, segna un punto di svolta nella storia dell’intelligenza artificiale: per la prima volta, dei modelli linguistici di grandi dimensioni (LLM) superano il test di Turing nella sua formulazione originale a tre parti. Lo studio ha coinvolto 284 partecipanti tra studenti universitari e lavoratori reclutati tramite Prolific.

È importante notare che il successo di questi modelli dipende fortemente dal “prompt”, ovvero dalle istruzioni iniziali fornite al sistema. Senza un prompt specifico che li istruisse ad adottare una persona umana, i modelli hanno ottenuto risultati inferiori, con tassi di successo del 36% per GPT-4.5 e del 38% per LLaMa-3.1. Questo sottolinea l’importanza cruciale non solo delle capacità intrinseche dei modelli, ma anche del modo in cui vengono istruiti e utilizzati.

Lo studio ha anche rivelato che fattori demografici come l’età, il livello di conoscenza dei LLM o la frequenza di interazione con i chatbot non hanno influenzato in modo significativo la capacità dei partecipanti di distinguere tra umani e AI. Questo suggerisce che la capacità di questi modelli di imitare il comportamento umano è sufficientemente avanzata da ingannare sia gli esperti che i neofiti nel campo dell’AI.

Il test di Turing

Ideato da Alan Turing nel 1950, il test, originariamente chiamato “gioco dell’imitazione“, si proponeva come metodo per determinare se una macchina potesse essere definita intelligente. Nel test standard a tre partecipanti, un interrogatore umano conversa simultaneamente tramite testo con due “testimoni”, uno umano e uno artificiale. Entrambi i testimoni cercano di convincere l’interrogatore di essere l’essere umano. Se l’interrogatore non riesce a distinguere in modo affidabile la macchina dall’umano, si dice che la macchina ha superato il test, indicando la sua capacità di imitare l’intelligenza umana.

Nonostante numerosi tentativi nel corso degli ultimi 75 anni, nessun sistema artificiale era finora riuscito a superare in modo convincente il test di Turing nella sua formulazione originale a tre partecipanti. Tuttavia, lo sviluppo dei modelli linguistici di grandi dimensioni (LLM), sistemi basati su reti neurali che apprendono a generare linguaggio analizzando enormi quantità di testo, ha riacceso l’interesse per questa storica prova.

Nella sua formulazione originale, il test prevede che un giudice umano interagisca contemporaneamente con un altro essere umano e con una macchina attraverso una conversazione testuale. Se il giudice non riesce a distinguere in modo affidabile quale dei due interlocutori sia la macchina, allora si può dire che quest’ultima abbia superato il test. Per 75 anni, questo paradigma ha stimolato dibattiti filosofici, progressi tecnologici e riflessioni etiche, diventando un punto di riferimento culturale ben oltre i confini dell’informatica. Nonostante numerosi tentativi, nessun sistema artificiale era riuscito finora a superare in modo convincente questa prova, che richiede non solo conoscenze enciclopediche, ma anche capacità di ragionamento, comprensione del contesto e abilità comunicative tipicamente umane.

Il test di Turing ha così mantenuto il suo status di pietra miliare, simboleggiando la frontiera tra l’intelligenza artificiale e quella umana. La sua longevità come benchmark è testimonianza della complessità e della ricchezza dell’intelligenza umana, che va ben oltre la mera elaborazione di informazioni. Il test, infatti, non valuta solo la capacità di fornire risposte corrette, ma anche l’abilità di gestire le sfumature del linguaggio, l’umorismo, le ambiguità e le implicazioni culturali che caratterizzano una vera conversazione.

Questa sfida ha spinto i ricercatori a sviluppare sistemi sempre più sofisticati, culminando nell’era dei modelli linguistici di grandi dimensioni, che sembrano finalmente in grado di avvicinarsi al livello di interazione richiesto da Turing.

LLM test Turing
A sinistra: percentuali di vittoria per ogni testimone IA: la percentuale di volte in cui l’interrogante ha giudicato
il sistema di IA come umano piuttosto che il testimone umano vero e proprio. Le barre di errore rappresentano
intervalli di confidenza bootstrap al 95%. Gli asterischi accanto a ciascuna barra indicano se il tasso di vittoria era significativamente diverso dal caso (50%). A destra: Fiducia nei verdetti in cui l’interrogatore ha scelto il modello umano o l’IA per ogni tipo di testimone. Ogni punto rappresenta una singola partita. I punti
più a sinistra e a destra indicano una maggiore fiducia che l’IA sia l’IA rispetto all’umano. Le barre di errore indicano intervalli di confidenza bootstrap del 95% intorno alla media

Metodologia e risultati dello studio: GPT-4.5 e LLaMa-3.1 sotto esame

La metodologia impiegata nello studio di Jones e Bergen è stata rigorosa e innovativa, adottando la formulazione originale a tre parti del test di Turing.

Ogni partecipante ha completato 8 round, ciascuno consistente in una coppia di conversazioni simultanee con due testimoni (uno umano e uno AI) per 5 minuti. L’interfaccia del gioco era progettata per assomigliare a una comune applicazione di messaggistica, con un limite di 300 caratteri per messaggio. I ricercatori hanno analizzato 1023 giochi con una mediana di 8 messaggi scambiati in 4,2 minuti. Un aspetto cruciale della metodologia è stato l’uso di due tipi di prompt per i modelli AI:

  • un prompt di base (NO-PERSONA) con istruzioni minime,
  • un prompt PERSONA più dettagliato che istruiva il modello ad adottare la personalità di un giovane introverso interessato alla cultura di internet.

I risultati hanno mostrato una netta differenza di performance tra i due tipi di prompt, con i prompt PERSONA che hanno portato a tassi di successo significativamente più alti. GPT-4.5-PERSONA ha ottenuto un tasso di successo del 73% (69% con gli studenti universitari, 76% con i partecipanti di Prolific), mentre LLaMa-PERSONA ha raggiunto il 56% (45% con gli studenti, 65% con Prolific).

In confronto, i modelli con prompt NO-PERSONA hanno ottenuto tassi di successo intorno al 36-38%. È interessante notare che ELIZA, usato come controllo, ha ottenuto un tasso di successo del 23%, dimostrando che i partecipanti erano in grado di distinguere sistemi più semplici dagli umani. L’analisi delle strategie utilizzate dagli interroganti ha rivelato che la maggior parte si è concentrata su small talk (61% dei giochi) e sondaggio delle qualità sociali ed emozionali (50%), piuttosto che su test di conoscenza o ragionamento.

Questo suggerisce che i partecipanti considerano le capacità sociali e conversazionali come più indicative dell’umanità rispetto alle pure abilità cognitive. Le ragioni citate più frequentemente per i verdetti includevano lo stile linguistico (27%) e le dinamiche interazionali (23%), sottolineando l’importanza delle sfumature comunicative nel giudizio sull’umanità di un interlocutore.

Successo inequivocabile: GPT-4.5 e LLaMa-3.1 ingannano gli interroganti.

Questi risultati costituiscono la prima prova empirica che un sistema artificiale sia in grado di superare un test di Turing standard a tre partecipanti. L’inclusione di ELIZA come “manipulation check” ha confermato che gli interrogatori erano in grado di distinguere un’intelligenza artificiale più semplice dagli umani, suggerendo che il successo dei modelli più avanzati non è dovuto a una generale ingenuità degli interrogatori.

Il successo di GPT-4.5 e LLaMa-3.1, seppur condizionato da un prompt specifico, ha importanti implicazioni per il dibattito sulla natura dell’intelligenza artificiale. Se gli interroganti non riescono a distinguere in modo affidabile una macchina da un essere umano, come sosteneva Turing, diventa difficile negare una forma di intelligenza alla macchina. Tuttavia, alcuni critici del test hanno sempre sostenuto che gli umani potrebbero essere facilmente ingannati.

La ricerca evidenzia anche come le strategie utilizzate dagli interrogatori si siano evolute rispetto a quanto ipotizzato da Turing. Solo una piccola parte degli interrogatori si è concentrata su domande di logica o conoscenza tradizionale. Molti di più hanno sondato gli aspetti sociali, emotivi e culturali dell’intelligenza, prestando attenzione allo stile linguistico e alle dinamiche interazionali. Interessante notare come una delle ragioni più indicative di una corretta identificazione dell’umano fosse la mancanza di conoscenza su un argomento specifico, sottolineando la difficoltà per gli LLM di simulare l’ignoranza.

Implicazioni per il dibattito sull’intelligenza delle IA

I risultati dello studio di Jones e Bergen hanno profonde implicazioni per il dibattito sulla natura dell’intelligenza artificiale e sulla sua relazione con l’intelligenza umana. Il superamento del test di Turing da parte di GPT-4.5 e LLaMa-3.1 solleva questioni fondamentali su cosa significhi veramente essere “intelligenti” e se la capacità di imitare perfettamente il comportamento umano in una conversazione sia sufficiente per attribuire intelligenza a una macchina.

Come sottolineano gli autori, il test di Turing non è una misura diretta dell’intelligenza, ma piuttosto un test di “umanità”. Tuttavia, il fatto che questi modelli siano in grado di ingannare gli esseri umani in modo così convincente suggerisce che hanno raggiunto un livello di sofisticazione che va oltre la semplice manipolazione statistica del linguaggio. La capacità di questi sistemi di adattarsi a personae specifiche e di gestire le sfumature della conversazione umana indica un livello di flessibilità e comprensione contestuale che si avvicina a ciò che tradizionalmente associamo all’intelligenza umana.

D’altra parte, il fatto che il successo dei modelli dipenda fortemente dal prompt iniziale solleva domande sulla natura della loro “intelligenza”. Si tratta di una vera comprensione o semplicemente di una simulazione estremamente avanzata? Inoltre, il dibattito si estende alla questione se il test di Turing sia ancora una misura adeguata dell’intelligenza artificiale nell’era dei LLM. Come evidenziato nello studio, i partecipanti si sono concentrati più sulle capacità sociali e comunicative che sulle pure abilità cognitive, suggerendo che la nostra concezione di ciò che rende un’entità “intelligente” potrebbe essere cambiata nel corso degli anni.

Questo potrebbe richiedere una rivalutazione dei criteri che usiamo per giudicare l’intelligenza artificiale, forse spostando l’attenzione verso aspetti come la creatività, l’adattabilità e la comprensione emotiva.

Impatto sociale ed economico dei ‘falsi umani’ digitali

Il successo dei modelli linguistici di grandi dimensioni nel test di Turing apre scenari inediti e potenzialmente dirompenti sul piano sociale ed economico. La capacità di questi sistemi di imitare in modo convincente il comportamento umano in una conversazione solleva preoccupazioni significative riguardo al loro potenziale impatto sulla società. Come evidenziato nello studio di Jones e Bergen, questi “falsi umani” digitali potrebbero essere utilizzati per automatizzare lavori e sostituire funzioni sociali ed economiche reali delle persone.

Secondo Dennett (2023), citato nello studio, tali “persone contraffatte” potrebbero avere conseguenze secondarie di vasta portata. C’è il rischio che le persone inizino a trascorrere sempre più tempo interagendo con questi simulacri di interazione sociale umana, in modo simile a come i social media sono diventati un sostituto delle interazioni che simulano. Questo potrebbe portare a un progressivo deterioramento delle relazioni interpersonali autentiche e a un isolamento sociale crescente. Inoltre, queste interazioni simulate fornirebbero alle entità che controllano questi “falsi umani” un potere significativo per influenzare le opinioni e il comportamento degli utenti umani, come sottolineato da El-Sayed et al. (2024) e Carroll et al. (2023).

Sul fronte economico, l’impatto potrebbe essere altrettanto profondo. La capacità di questi sistemi di sostituire gli esseri umani in conversazioni brevi suggerisce che potrebbero integrare o sostituire aspetti di ruoli economici che richiedono interazioni limitate con altri.

Secondo Eloundou et al. (2023) e Soni (2023), citati nello studio, questo potrebbe portare a una significativa ristrutturazione del mercato del lavoro, con potenziali perdite di posti di lavoro in settori che dipendono fortemente dalle interazioni umane a breve termine. D’altra parte, potrebbe anche creare nuove opportunità economiche legate allo sviluppo, alla gestione e all’ottimizzazione di questi sistemi AI. Un altro aspetto cruciale riguarda l’impatto sulla fiducia nelle interazioni online.

La difficoltà nel distinguere tra umani reali e AI potrebbe minare la fiducia nelle comunicazioni digitali, con potenziali ripercussioni su e-commerce, social media e altre piattaforme basate su interazioni online.

Sfide future e nuove frontiere per la valutazione dell’AI: “controfigure” digitalim potenziali rischi socio-economici

Il superamento del test di Turing da parte dei modelli linguistici di grandi dimensioni segna un punto di svolta che apre nuove frontiere nella valutazione e comprensione dell’intelligenza artificiale. Come sottolineano Jones e Bergen nel loro studio, il successo di questi modelli non rappresenta la fine della storia, ma piuttosto l’inizio di una nuova fase di ricerca e sviluppo. Una delle sfide principali sarà quella di sviluppare nuovi metodi di valutazione che vadano oltre le limitazioni del test di Turing. Come evidenziato dai risultati dello studio, la capacità di imitare il comportamento umano in una conversazione breve potrebbe non essere più sufficiente come misura dell’intelligenza artificiale.

Futuri test potrebbero concentrarsi su aspetti più complessi dell’intelligenza, come la creatività, il ragionamento astratto, l’adattabilità a situazioni nuove o la comprensione delle sfumature emotive e culturali.

Un’altra frontiera importante riguarda lo sviluppo di sistemi AI che non solo imitino il comportamento umano, ma che possano effettivamente comprendere e ragionare in modo simile agli esseri umani. Questo potrebbe richiedere progressi significativi in aree come l’apprendimento causale, il ragionamento simbolico e l’integrazione di conoscenze multimodali. Inoltre, come suggerito nello studio, sarà cruciale esplorare l’impatto di fattori come la durata delle interazioni, la diversità dei partecipanti e gli incentivi offerti. Test più lunghi e complessi potrebbero rivelare limitazioni dei modelli attuali e spingere verso lo sviluppo di sistemi ancora più avanzati.

Le sfide sul fronte etico e sociale

Sul fronte etico e sociale, emergono nuove sfide legate alla necessità di distinguere tra interazioni con umani reali e AI. Come evidenziato da Park et al. (2024), citati nello studio, sarà fondamentale sviluppare metodi affidabili per rilevare l’inganno AI e proteggere gli utenti da potenziali manipolazioni. Infine, il successo dei modelli nel test di Turing potrebbe stimolare una riflessione più ampia sulla natura dell’intelligenza e della coscienza.

Come suggerito da Christian (2011) nella conclusione dello studio, il prossimo capitolo potrebbe vedere gli esseri umani sforzarsi di “diventare più umani che mai”, approfondendo ciò che ci rende veramente unici rispetto alle macchine. Questo potrebbe portare a nuove frontiere nella comprensione della cognizione umana e nello sviluppo di tecnologie che amplificano, piuttosto che sostituiscono, le capacità umane.

Indipendentemente dal fatto che superare il test di Turing implichi o meno un’intelligenza simile a quella umana, la capacità di questi sistemi di sostituirsi a una persona reale in brevi conversazioni ha immediate rilevanze sociali ed economiche. Sistemi in grado di imitare così bene gli esseri umani potrebbero automatizzare lavori che richiedono interazioni verbali, sostituendo di fatto funzioni sociali ed economiche svolte da persone reali.

La diffusione di queste “controfigure” digitali potrebbe portare a conseguenze inattese. Le persone potrebbero passare sempre più tempo interagendo con queste simulazioni, con il rischio di un depotenziamento del valore dell’interazione umana reale. Inoltre, entità che controllano tali sistemi potrebbero acquisire un notevole potere nell’influenzare opinioni e comportamenti degli utenti.

Conclusioni

Il risultato di questa ricerca segna una pietra miliare nella storia dell’intelligenza artificiale, dimostrando per la prima volta che modelli linguistici avanzati possono superare il test di Turing nella sua forma più classica. Tuttavia, è importante sottolineare che il test non è una valutazione statica e il suo significato è intrinsecamente legato alla nostra comprensione in continua evoluzione di cosa significhi essere umani e intelligenti. Mentre una macchina ha superato il test, la sfida per noi umani di comprendere e valorizzare ciò che ci rende unici continua. Ulteriori ricerche su diverse implementazioni del test e sull’impatto di questi sistemi sulla società saranno cruciali per navigare in questo nuovo scenario.

Articoli correlati

Articolo 1 di 4