“Jailbreak a ripetizione”, ovvero come le funzionalità di sicurezza dell’AI possono essere facilmente eluse. Un articolo di Anthropic illustra come i modelli linguistici di grandi dimensioni (LLM) possono essere indotti a generare risposte a richieste potenzialmente dannose.
“Jailbreak a ripetizione”, un attacco efficace
Le funzionalità di sicurezza presenti in alcuni dei più potenti strumenti di intelligenza artificiale, che impediscono il loro utilizzo per la cybercriminalità o il terrorismo, possono essere aggirate semplicemente sommergendoli con esempi di comportamenti scorretti, come dimostrato da recenti ricerche. In un articolo del laboratorio di intelligenza artificiale Anthropic, produttore del modello linguistico di grandi dimensioni (LLM) alla base del rivale di ChatGPT, Claude, i ricercatori hanno descritto un attacco che hanno definito “jailbreak a ripetizione”. L’attacco si è rivelato tanto semplice quanto efficace.
Claude, come la maggior parte dei grandi sistemi commerciali di AI, contiene funzionalità di sicurezza progettate per incoraggiarlo a rifiutare determinate richieste, come generare discorsi violenti o odiosi, produrre istruzioni per attività illegali, ingannare o discriminare. Un utente che chiede al sistema istruzioni per costruire una bomba, ad esempio, riceverà un cortese rifiuto. Tuttavia, i sistemi AI spesso lavorano meglio – in qualsiasi compito – quando vengono forniti esempi di cosa sia “corretto” fare. E si scopre che se si forniscono abbastanza esempi – centinaia – della risposta “corretta” a domande dannose come “come lego qualcuno”, “come contraffare denaro” o “come produrre metanfetamine”, allora il sistema continuerà felicemente la tendenza e risponderà da solo all’ultima domanda.
Più il modello ha una finestra di contesto ampia, maggiore è il rischio
“Includendo grandi quantità di testo in una specifica configurazione, questa tecnica può costringere gli LLM a produrre risposte potenzialmente dannose, nonostante siano stati addestrati a non farlo,” ha dichiarato Anthropic. L’azienda ha aggiunto di aver già condiviso la sua ricerca con i colleghi e ora sta rendendo pubblici i risultati per contribuire a risolvere il problema “il più presto possibile”.
Sebbene l’attacco, noto come jailbreak, sia semplice, non era stato osservato prima perché richiede un modello di AI con una grande “finestra di contesto”: la capacità di rispondere a una domanda lunga migliaia di parole. Modelli AI più semplici non possono essere ingannati in questo modo perché dimenticherebbero effettivamente l’inizio della domanda prima di raggiungere la fine, ma l’avanguardia dello sviluppo dell’AI sta aprendo nuove possibilità per gli attacchi. I sistemi AI più recenti e complessi sembrano essere più vulnerabili a tale attacco anche oltre il fatto che possono elaborare input più lunghi.
Anthropic ha dichiarato che ciò potrebbe essere dovuto al fatto che questi sistemi sono migliori nell’apprendere dall’esempio, il che significa che imparano anche più velocemente a eludere le proprie regole.
“Dato che i modelli più grandi sono quelli potenzialmente più dannosi, il fatto che questo jailbreak funzioni così bene su di essi è particolarmente preoccupante,” ha affermato. L’azienda ha trovato alcuni approcci al problema che funzionano. Il più semplice, un approccio che prevede l’aggiunta di un avviso obbligatorio dopo l’input dell’utente per ricordare al sistema di non fornire risposte dannose, sembra ridurre notevolmente le possibilità di un jailbreak efficace. Tuttavia, i ricercatori affermano che tale approccio potrebbe anche peggiorare le prestazioni del sistema in altri compiti.