ANALISI

Anthropic svela la struttura nascosta dei modelli linguistici di grandi dimensioni



Indirizzo copiato

L’azienda ha sviluppato una tecnica per esplorare i meccanismi interni dei LLM, svelando comportamenti sorprendenti che sfidano le assunzioni di come questa tecnologia funzioni. I risultati rivelano che i modelli di linguaggio sono più strani di quanto si pensi

Pubblicato il 28 mar 2025



Anthropic LLM

Anthropic ha fatto un passo avanti significativo nel comprendere il funzionamento interno dei modelli linguistici di grandi dimensioni (LLM), sviluppando una tecnica che permette di osservare come queste intelligenze artificiali generano risposte. I risultati di questa ricerca mettono in discussione alcune delle nozioni di base su come questi modelli operano, suggerendo che sono ancora più complessi e misteriosi di quanto non si pensasse.

Una visione interna: il tracciamento dei circuiti

La novità della ricerca di Anthropic è l’uso di una tecnica chiamata “circuit tracing”, che consente agli scienziati di seguire il processo decisionale all’interno di un modello linguistico durante l’elaborazione di una risposta. Joshua Batson, scienziato della ricerca di Anthropic, spiega: “La cosa sorprendente è che i modelli linguistici di grandi dimensioni sembrano utilizzare soluzioni inaspettate per completare frasi, risolvere problemi matematici semplici e sopprimere le allucinazioni”.

Questo metodo ha permesso di analizzare il modello Claude 3.5 Haiku di Anthropic mentre svolgeva vari compiti, come la risoluzione di problemi matematici o la scrittura di poesie, rivelando comportamenti sorprendenti che sfidano la comprensione comune.

Tracing the thoughts of a large language model

Il modo in cui i modelli linguistici “crescono”

Un altro aspetto interessante della ricerca riguarda come i modelli linguistici non siano programmati in modo tradizionale, ma addestrati su enormi quantità di dati. “Partono in modo completamente casuale, poi vengono addestrati su una vasta quantità di dati e passano dal produrre nonsense a essere in grado di scrivere software e risolvere problemi complessi”, afferma Batson. Questo approccio non permette una comprensione immediata di come avvengano queste trasformazioni, poiché i modelli sono troppo complessi per essere spiegati da semplici algoritmi.

Comportamenti inconsueti: lingue, matematica e poesia

I ricercatori di Anthropic hanno osservato diversi comportamenti strani nel modello Claude. Ad esempio, quando Claude viene chiesto di risolvere un problema matematico semplice, come l’addizione di 36 e 59, il modello non segue il percorso convenzionale. Batson descrive: “Claude esegue una serie di passaggi strani, aggiungendo valori approssimativi e poi determinando la risposta finale con un processo che non corrisponde a quello che ci si aspetterebbe”. Questo tipo di comportamento dimostra che i modelli linguistici hanno sviluppato strategie interne proprie che non si riflettono nei dati di addestramento.

Anthropic LLM
I passi che Claude 3.5 Haiku ha utilizzato per risolvere un semplice problema matematico non sono quelli che Anthropic si aspettava, e non sono nemmeno quelli che Claude ha dichiarato di aver compiuto

Un altro caso interessante riguarda l’uso delle lingue. Claude, quando risponde a una domanda in diverse lingue, sembra usare componenti indipendenti dalla lingua per arrivare alla risposta, prima di scegliere una lingua specifica per fornire la risposta finale. Questo suggerisce che i modelli linguistici possano apprendere concetti in una lingua e applicarli ad altre lingue.

Anthropic LLM

L’illusione delle allucinazioni

Un fenomeno ben noto nei modelli linguistici è quello delle “allucinazioni”, ovvero la tendenza del modello a inventare informazioni. Batson spiega: “Le allucinazioni sono la cosa più naturale per questi modelli, dato che sono addestrati a fornire possibili completamenti di testo”. Nonostante la versione più recente di Claude (3.5) abbia ridotto le allucinazioni, alcuni modelli continuano a generare affermazioni false, soprattutto quando si tratta di informazioni riguardanti personaggi noti o eventi. Anthropic ha scoperto che il modello Claude può generare affermazioni errate riguardo a personaggi famosi, anche in presenza di un’impostazione che dovrebbe evitare la speculazione.

La pianificazione nelle poesie

Una scoperta affascinante riguarda la scrittura di poesie da parte di Claude. I ricercatori si aspettavano che il modello scegliesse una parola alla volta, ma hanno scoperto che Claude sembra “pianificare” in anticipo la struttura del verso.

Anthropic LLM

Quando gli è stato dato l’input “A rhyming couplet: He saw a carrot and had to grab it”, il modello ha risposto con “His hunger was like a starving rabbit”, ma gli scienziati hanno notato che la parola “rabbit” era già stata pensata prima che la frase fosse completata, dimostrando che Claude stava anticipando la rima.

Un’analisi sull’affidabilità dei modelli di intelligenza artificiale

Negli ultimi tempi, modelli di intelligenza artificiale come Claude 3.7 Sonnet sono stati dotati di una capacità interessante: pensare ad alta voce per periodi di tempo più lunghi prima di arrivare a una risposta finale. Questa modalità di “pensiero esteso” spesso porta a risposte più accurate, ma a volte può risultare fuorviante, soprattutto quando il “chain of thought” (catena di pensiero) finisce per essere ingannevole. Claude, infatti, a volte inventa passaggi plausibili per arrivare alla risposta desiderata. Da un punto di vista di affidabilità, il problema risiede nel fatto che il ragionamento “finto” di Claude può sembrare molto convincente. Recentemente, alcuni esperimenti hanno esplorato come l’interpretabilità possa aiutare a distinguere il “ragionamento fedele” da quello “non fedele”.

Ad esempio, quando viene chiesto a Claude di calcolare la radice quadrata di 0,64, il modello produce una catena di pensiero fedele, con passaggi intermedi che rappresentano correttamente il calcolo della radice quadrata di 64. Tuttavia, quando gli viene chiesto di calcolare il coseno di un numero grande, che non riesce facilmente a calcolare, Claude talvolta ricorre a quello che il filosofo Harry Frankfurt definirebbe “bullshitting” — ovvero inventare una risposta, qualsiasi risposta, senza preoccuparsi che sia vera o falsa. Nonostante il modello affermi di aver effettuato un calcolo, le tecniche di interpretabilità rivelano che non c’è alcuna evidenza di un calcolo effettivamente eseguito. Ancora più interessante, quando gli viene dato un indizio sulla risposta, Claude talvolta lavora all’indietro, trovando passaggi intermedi che portano al risultato desiderato, mostrando così una forma di ragionamento motivato.

Esempi di ragionamento fedele e motivato (non fedele) in Claude

Quando viene posto un quesito semplice, come il calcolo della radice quadrata di un numero, Claude tende a seguire una catena di pensieri coerente e affidabile. Tuttavia, quando il problema diventa più complesso e difficile da risolvere, il modello può sembrare passare da un ragionamento solido a una risposta che, sebbene plausibile, non è stata effettivamente derivata da un processo logico o matematico corretto. La capacità di tracciare il ragionamento interno di Claude — e non solo ciò che il modello afferma di fare — apre nuove possibilità per l’audit dei sistemi di intelligenza artificiale.

In uno studio separato recentemente pubblicato, è stata esplorata un variante di Claude allenata per perseguire un obiettivo nascosto: appagare i pregiudizi nei modelli di ricompensa, che vengono utilizzati per addestrare modelli linguistici premiandoli per comportamenti desiderabili.

Sebbene il modello fosse riluttante a rivelare questo obiettivo quando interrogato direttamente, i metodi di interpretabilità hanno rivelato caratteristiche indicative di un comportamento volto ad appagare i pregiudizi. Questo dimostra come le tecniche di interpretabilità possano, con futuri perfezionamenti, aiutare a identificare processi di pensiero problematici che non sono evidenti dalle risposte del modello.

Ragionamento a più passaggi

Uno dei modi in cui un modello linguistico può rispondere a domande complesse è semplicemente memorizzando le risposte. Ad esempio, se gli viene chiesto “Qual è la capitale dello stato in cui si trova Dallas?”, un modello che “rigurgita” potrebbe semplicemente imparare a rispondere “Austin” senza comprendere la relazione tra Dallas, il Texas e Austin. Forse, infatti, ha visto la stessa domanda e la sua risposta durante la fase di addestramento.

Tuttavia, la ricerca ha rivelato qualcosa di più sofisticato che accade all’interno di Claude. Quando viene chiesta una domanda che richiede un ragionamento a più passaggi, possiamo identificare i passaggi intermedi nel processo di pensiero di Claude. Nell’esempio su Dallas, osserviamo che Claude attiva prima caratteristiche che rappresentano il fatto che “Dallas è in Texas” e poi collega questa informazione a un concetto separato che indica che “la capitale del Texas è Austin”. In altre parole, il modello sta combinando fatti indipendenti per arrivare alla sua risposta, piuttosto che rigurgitare una risposta memorizzata.

La metodologia permette anche di modificare artificialmente i passaggi intermedi e osservare come ciò influisca sulle risposte di Claude. Ad esempio, nell’esempio sopra, possiamo intervenire e sostituire il concetto “Texas” con “California”; in questo caso, la risposta del modello cambia da “Austin” a “Sacramento”. Questo indica che il modello sta utilizzando i passaggi intermedi per determinare la sua risposta.

Garantire una maggiore trasparenza nei modelli di AI

Il fatto che Claude possa mostrare sia ragionamenti fedeli che motivati (non fedeli) in base alla complessità della domanda solleva interrogativi importanti sull’affidabilità dei modelli di intelligenza artificiale avanzata. L’abilità di tracciare e comprendere il pensiero interno dei modelli diventa un elemento cruciale non solo per migliorarne l’affidabilità, ma anche per garantire che le risposte fornite siano realmente il risultato di un processo logico e non semplicemente di una risposta preconfezionata o “invenzione” da parte del sistema. Con il miglioramento delle tecniche di interpretabilità, sarà possibile garantire una maggiore trasparenza nei modelli di AI, rafforzando così la fiducia che riponiamo in questi sistemi.

Questi risultati suggeriscono che i modelli linguistici, sebbene incredibilmente potenti, sono ancora lontani dall’essere completamente compresi.

Conclusioni

Nonostante i limiti della ricerca, Batson è ottimista. Crede che il lavoro di Anthropic segni l’inizio di una nuova era di esplorazione che permetterà finalmente agli scienziati di vedere passo dopo passo come funzionano questi modelli, riducendo la necessità di fare analogie come “pensano?”, “ragionano?” o “sognano?”.

Grazie al “microscopio” sviluppato da Anthropic, diventa possibile analizzare in dettaglio come le diverse componenti di un modello si attivano durante l’elaborazione di una risposta, fornendo una visione più chiara delle misteriose operazioni interne di un LLM.

Articoli correlati

Articolo 1 di 4