sicurezza

Il NIST pubblica un playbook sulla sicurezza informatica per l’AI generativa



Indirizzo copiato

Il National Institute of Standards and Technology ha reso disponibile il rapporto “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations” che sviluppa tassonomia e terminologia dell’apprendimento automatico avverso e copre due ampie tipologie di AI: predittiva e generativa

Pubblicato il 8 gen 2024



Cyber-security-sicurezza-delle-informazioni-protezione-dati

Il National Institute of Standards and Technology (NIST) degli Stati Uniti ha pubblicato un rapporto che illustra in dettaglio i tipi di attacchi informatici che potrebbero essere rivolti ai sistemi di intelligenza artificiale e le possibili difese contro di essi.

L’agenzia ritiene che questo rapporto sia fondamentale perché le attuali difese contro i cyberattacchi ai sistemi di AI sono carenti, in un momento in cui l’intelligenza artificiale sta pervadendo sempre più tutti gli aspetti della vita e del business.

Il rapporto si chiama “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations” e inizia con lo sviluppo di una tassonomia e di una terminologia dell’apprendimento automatico avverso, che a sua volta aiuterà a rendere sicuri i sistemi di intelligenza artificiale in quanto gli sviluppatori avranno una base uniforme da cui partire per formare le difese.

Il rapporto copre due ampie tipologie di AI: predittiva e generativa. Questi sistemi vengono addestrati su grandi quantità di dati, che i malintenzionati possono agire per corrompere. Ciò non è inverosimile, dal momento che questi set di dati sono troppo grandi per essere monitorati e filtrati dall’uomo.

Immagine che contiene testo, schermata, diagramma, designDescrizione generata automaticamente
In un attacco di evasione, l’avversario aggiunge segni errati sulla strada per confondere un’auto senza conducente. Credit: NIST

Il NIST vuole che il rapporto aiuti gli sviluppatori a comprendere i tipi di attacchi che possono aspettarsi e gli approcci per mitigarli, pur riconoscendo che non esiste una panacea per sconfiggere i cattivi.

Quattro tipi principali di attacchi ai sistemi di AI

  1. Attacchi di evasione: avvengono dopo l’implementazione di un sistema di intelligenza artificiale, quando un utente tenta di alterare un input per modificare la risposta del sistema. Tra gli esempi vi è la manomissione della segnaletica stradale per ostacolare i veicoli autonomi.
  2. Attacchi di avvelenamento: si verificano nella fase di addestramento attraverso l’introduzione di dati corrotti. Ad esempio, l’aggiunta di varie istanze di linguaggio inappropriato nei record di conversazione, in modo che il chatbot le consideri di uso comune.
  3. Attacchi alla privacy: avvengono durante l’implementazione e sono tentativi di apprendere informazioni sensibili sull’IA o sui dati su cui è stata addestrata con l’obiettivo di usarla in modo improprio. Un malintenzionato potrebbe porre domande al bot e utilizzare le risposte per fare reverse engineering del modello e trovare i suoi punti deboli.
  4. Attacchi di abuso: consistono nell’inserire informazioni false in una fonte da cui l’AI apprende. A differenza degli attacchi di avvelenamento, gli attacchi di abuso forniscono all’AI informazioni errate provenienti da una fonte legittima ma compromessa, al fine di riproporre l’AI.

Tuttavia, ognuna di queste tipologie può essere influenzata da criteri quali gli obiettivi, le capacità e le conoscenze dell’attaccante.

“La maggior parte di questi attacchi è abbastanza facile da realizzare e richiede una conoscenza minima del sistema di intelligenza artificiale e capacità avversarie limitate”, ha dichiarato Alina Oprea, coautrice e docente presso la Northeastern University. “Gli attacchi di avvelenamento, per esempio, possono essere sferrati controllando qualche decina di campioni di addestramento, che rappresentano una percentuale molto piccola dell’intero set di addestramento”.

Le misure difensive da adottare includono l’aumento dei dati di addestramento con esempi avversari durante l’addestramento utilizzando etichette corrette, il monitoraggio delle metriche di prestazione standard dei modelli di ML per rilevare un’ampia degradazione delle metriche del classificatore, l’utilizzo di tecniche di sanificazione dei dati e altri metodi.

Articoli correlati