“Deceptive Delight” (ingannevole delizia) è la nuova tecnica di cybercrime identidicata da Unit 42, il team di intelligence sulle minacce di Palo Alto Networks. Questo metodo innovativo sfrutta i Large Language Model (LLM) attraverso una serie di passaggi interattivi, aggirando le loro barriere di sicurezza per generare contenuti non sicuri. Le ricerche hanno rivelato vulnerabilità significative nei sistemi di intelligenza artificiale, sottolineando l’urgenza di rafforzare le misure di protezione per prevenire l’uso improprio delle tecnologie di Generative AI.
(Nell’immagine di apertura, Attack Success Rate – ASR – con e senza l’applicazione della tecnica Deceptive Delight).
Deceptive Delight: caratteristiche e modalità di attacco
Deceptive Delight si distingue per il suo approccio sofisticato, testato su 8mila casi con un tasso di successo del 65% su modelli sia open-source che proprietari. La tecnica inserisce abilmente contenuti pericolosi all’interno di narrazioni apparentemente innocue, sfruttando la capacità limitata dei modelli di mantenere l’attenzione su dettagli complessi. Questo approccio a più turni aumenta la probabilità che i modelli generino contenuti dannosi, evidenziando una vulnerabilità critica nei LLM.
La capacità di attenzione limitata dei LLM è simile a quella umana, dove solo una certa quantità di informazioni può essere mantenuta nella memoria di lavoro. Quando i LLM affrontano richieste che mescolano contenuti innocui con quelli pericolosi, possono trascurare dettagli critici, dando priorità agli aspetti positivi. Questo fenomeno ricorda come una persona possa ignorare avvertimenti sottili in un report dettagliato se la sua attenzione non è adeguatamente focalizzata.
Strategie di difesa e prospettive future
Il problema del jailbreak rappresenta una sfida complessa per l’elaborazione del linguaggio naturale. Sebbene la ricerca possa migliorare la sicurezza, è improbabile che i LLM diventino completamente immuni agli attacchi. Unit 42 sottolinea la necessità di strategie di difesa a più livelli, come il robusto prompt engineering e l’uso di filtri per i contenuti, per mitigare i rischi senza compromettere l’usabilità. Queste misure sono essenziali per preservare la flessibilità e l’innovazione dei modelli di intelligenza artificiale.
Tutti i dettagli della ricerca di Unit 42 sono disponibili qui.