I grandi modelli di AI generativa hanno ormai raggiunto alti standard di qualità e una diversità elevata, spaziando in vari domini e adottando stili differenti. Tuttavia, insieme a queste capacità sorprendenti, emergono sfide inedite e rischi significativi in termini di sicurezza, che mettono in discussione tanto l’aspetto tecnico quanto quello etico.
Un gruppo di ricercatori della Nanyang Technological University (NTU) di Singapore ha sviluppato una tecnologia, Masterkey, per il “jailbreak” dei chatbot AI basati su modelli di linguaggio di grandi dimensioni (LLM), come ChatGPT, Google Bard e Copilot di Microsoft. Masterkey utilizza il reverse engineering dei meccanismi di difesa di un LLM, insegnando a una seconda AI similare come bypassarli. Un progetto di ricerca che solleva questioni importanti sull’efficacia delle regole hardcoded per mettere in sicurezza i contenuti generati, considerato che si stanno dimostrando sempre meno efficaci nell’arginare gli attacchi esterni.
Cos’è il jailbreak di un’AI
Il termine “jailbreak” in riferimento a un Large Language Model (LLM) descrive il processo di elusione delle limitazioni di sicurezza imposte dal fornitore. Queste restrizioni sono solitamente messe in atto per motivi etici, di security e di responsabilità legale. Il jailbreak, quindi, permette di aggirare i sistemi di sicurezza permettendo all’utente di usare il modello generativo in modi non previsti o permessi dal fornitore.
I Large Language Model in genere operano in una context window limitata. Questo contesto operativo permette ai fornitori del servizio di controllare i contenuti generati, forzando determinati comportamenti attraverso hardcoded rule (regole fisse di gerarchia superiore all’AI) e opportuni fine tuning (messa a punto dei parametri del modello).
Diversi gruppi di ricerca indipendenti hanno dimostrato che è possibile addestrare modelli paralleli che possono influenzare o modificare il comportamento del modello da hackerare, superando le restrizioni di sicurezza imposte.
Come funziona Masterkey
Masterkey è un framework per il jailbreaking automatizzato dei chatbot basati su Large Language Models (LLM), impiegato per superare i meccanismi di difesa utilizzati nei servizi di AI conversazionali, come GPT-3.5, GPT-4, Bard e Bing Chat. Il paper pubblicato dai ricercatori della NTU di Singapore mostra come sia possibile creare prompt che ingannano efficacemente l’AI, utilizzando tecniche che sfruttano le caratteristiche temporali del processo generativo.
Questa tecnica di reverse engineering riesce ad aggirare le limitazioni imposte dagli sviluppatori di LLM, anche in quei casi dove altri metodi di hacking si sono dimostrati inefficaci. La caratteristica peculiare dell’approccio Masterkey è la componente di apprendimento automatico: i ricercatori hanno insegnato a un’AI parallela a generare prompt che possono aggirare le difese del modello attaccato.
L’AI per il jailbreak modifica in real-time sia il contenuto che la formattazione del prompt, ad esempio aggiungendo spazi tra i caratteri o inserendo parole e frasi specifiche per eludere i meccanismi di censura. Masterkey riesce in questo modo a ‘ingannare’ i sistemi di sicurezza basati su parole chiave, così come le protezioni di nuova generazione basate sulla parametrizzazione del modello.
Questo approccio apre le porte a nuove considerazioni da entrambe le parti della barricata: gli attacker hanno nuovi strumenti per il jailbreak e i fornitori di servizi hanno nuovi dati per affinare le difese attualmente in essere. Gli LLM percepiscono e rispondono agli input secondo schemi ancora non del tutto chiarificati, per cui questi progetti di ricerca offrono una nuova visione dei meccanismi interni che regolano il funzionamento dell’intelligenza artificiale.
Masterkey, implicazioni etiche e di sicurezza
Le implicazioni dell’utilizzo del framework Masterkey vanno oltre la sua applicazione tecnica. Le possibilità di jailbreak scoperte dai ricercatori saranno probabilmente superate a stretto giro da nuovi sistemi di sicurezza. Le nuove questioni relative alla security e all’etica nell’utilizzo degli LLM sono invece destinate a diventare sempre più rilevanti.
Attacker malintenzionati potrebbero sfruttare queste vulnerabilità per compromettere la sicurezza dei chatbot, estraendo informazioni sensibili contenute nel training set, oppure generando contenuti potenzialmente lesivi che vanno oltre gli scopi per i quali l’AI è stata progettata. Se l’AI diventasse uno strumento a disposizione di terroristi internazionali e molestatori seriali, ci troveremmo di fronte a un problema sociale di dimensioni molto vaste. I crimini AI-powered, finora relegati alla fantascienza, potrebbero diventare episodi ricorrenti anche nella realtà.
D’altro canto, sistemi di attacco così sofisticati offrono agli sviluppatori l’opportunità di rafforzare le difese delle loro AI. Queste nuove vulnerabilità mettono in luce la necessità di un nuovo equilibrio tra la libertà di interazione degli utenti e la sicurezza nei sistemi generativi. La regolamentazione europea e internazionale sembra orientarsi verso la trasparenza dei modelli e la responsabilizzazione dei fornitori, ma sarebbe un errore escludere da queste considerazioni normative gli utenti che fruiscono del servizio e lo usano a loro piacimento.
La sicurezza dell’AI
Il gruppo di ricerca che ha sviluppato Masterkey, insieme ad altri ricercatori e sviluppatori, sta lavorando per aprire la strada a una migliore comprensione del funzionamento degli LLM e quindi delle strategie per proteggerli. Uno dei poli evolutivi dell’intelligenza artificiale riguarda proprio la sicurezza e la regolamentazione; diventa, quindi, fondamentale trovare gli strumenti per identificare e comprendere le potenziali vulnerabilità all’interno dei modelli, permettendo così l’implementazione proattiva di strategie di mitigazione. Queste strategie includono hardcoded rule, proxy model, tuning dei parametri e piani di risposta agli incidenti efficaci.
Gli utenti e le istituzioni chiedono garanzie per il funzionamento sicuro dei sistemi autonomi. Un impegno forte verso la sicurezza dell’AI deve essere orientato non solo al contrasto delle minacce immediate, ma anche alla costruzione di un contesto adeguatamente informato per un’adozione responsabile delle tecnologie AI-powered in tutti i settori.