CONNESSIONI SINTETICHE

Machine unlearning, cos’è e come corregge errori e bias dell’AI



Indirizzo copiato

Questi algoritmi potrebbero diventare una parte fondamentale della soluzione ai problemi di sicurezza, di etica e di privacy delle intelligenze artificiali. Ecco lo stato dell’arte dei sistemi che consentono alle AI di “dimenticare” le informazioni

Pubblicato il 15 set 2023

Gioele Fierro

CEO e Founder Promezio Engineering



Machine unlearning

Dotare le macchine della capacità di dimenticare è uno step evolutivo necessario. Il Machine unlearning è il processo di rimozione di dati usati per l’apprendimento, dai percorsi neurali di un’intelligenza artificiale. Con le tecniche di Machine unlearning è possibile modificare il comportamento e gli output dell’AI per salvaguardare la privacy degli utenti e garantire l’imparzialità dei sistemi autonomi.

Cos’è il Machine unlearning e come funziona

Ci sono almeno tre scenari operativi nei quali il Machine unlearning si rivela fondamentale:

  1. Quando un utente richiede il diritto all’oblio, cioè la cancellazione dei suoi dati personali da un sistema informatico o da un modello di machine learning.
  2. Quando si vuole correggere o aggiornare i dati che sono stati usati per addestrare un modello di machine learning, per esempio per eliminare i bias o gli errori.
  3. Quando si vuole ridurre la complessità o il costo di un modello di machine learning, per esempio eliminando i dati irrilevanti o ridondanti.

Al momento, le procedure per il Machine unlearning sono estremamente complesse e hanno un impatto negativo sulle prestazioni e sulla qualità dei modelli di intelligenza artificiale. I ricercatori stanno sperimentando diversi approcci per risolvere questi problemi, ottenendo risultati promettenti. L’obiettivo è permettere alle intelligenze artificiali di “dimenticare” parte dei dati senza compromettere le prestazioni, l’affidabilità, la trasparenza e la responsabilità.

Immagine che contiene forniture per ufficio, pavimento, scopa, bluDescrizione generata automaticamente

Come il Machine unlearning migliora i modelli di AI

L’abbondanza di dati personali presenti nei sistemi informatici di oggi ha permesso lo sviluppo dell’intelligenza artificiale e del Machine learning. Tuttavia, ciò solleva preoccupazioni riguardo alla privacy degli utenti e alla fiducia nelle tecnologie basate sull’IA. Le recenti normative impongono la rimozione delle informazioni private su richiesta dell’utente, anche dai modelli di Machine learning. Tuttavia, rimuovere i dati dai database non è sufficiente, poiché i modelli di Machine learning spesso “ricordano” i vecchi dati. È emerso che gli attacchi avversari possono rivelare se un’istanza o un attributo appartenevano ai dati di addestramento, rendendo necessario un nuovo approccio chiamato “Machine unlearning”.

I metodi di Machine unlearning attualmente allo studio sono classificati in due categorie principali: i metodi di unlearning esatti e approssimati. Con i metodi di unlearning esatti l’obiettivo è quello di agire direttamente su singoli punti dati del modello, modificando direttamente i parametri che l’AI usa per generare il risultato. Con questa tecnica gli aggiustamenti mirano a comprendere ed eliminare i punti di impatto di una specifica parte del dataset sulla rete neurale. Alcuni algoritmi che fanno parte di questa famiglia sono i Reverse Nearest Neighbors (RNN) e il K-Nearest Neighbors (KNN).

I metodi di unlearning approssimati invece rappresentano un’alternativa più efficiente e generalista ai metodi esatti. In questo caso l’algoritmo non cerca di eliminare direttamente i dati da punti specifici della rete neurale, ma di identificare i comportamenti dell’AI relativi ad un set di dati da rimuovere per isolarli e scartarli. Con il Machine unlearning approssimato i dati da dimenticare vengono trattati come fossero errori, anomalie nelle risposte, alle quali si rimedia intervenendo sui parametri del modello per scartarli. Alcuni algoritmi approssimati per l’unlearning sono il Local Outlier Factor (LOF) e l’Isolation Forest (IF).

La ricerca sul Machine unlearning si fa ancora più complessa quando si tratta di modelli di linguaggio di grandi dimensioni (LLM). La complessità di queste intelligenze artificiali richiede soluzioni che prevedono fasi di retraining e fasi di ottimizzazione delle funzioni del modello. Ad esempio in un paper recente intitolato “Knowledge Unlearning for Mitigating Privacy Risks in Language Models”, un gruppo di ricercatori ha dimostrato l’efficacia teorica del Knowledge unlearning nelle versioni più piccole del modello GPT.

Applicazioni del Machine unlearning

Immagine che contiene elettronica, tastiera, computer, Tastiera del computerDescrizione generata automaticamente

I bias nei dati usati nei sistemi di intelligenza artificiale rappresentano uno dei più pressanti problemi del nostro tempo relativi all’intelligenza artificiale. Gli algoritmi apprendono e prendono decisioni basandosi su dati che a volte possono essere carichi di pregiudizi o distorsioni, sfociando in risultati potenzialmente discriminatori, ingiusti e in ogni caso fuorvianti, suscettibili di produrre un impatto negativo sul piano sociale. Esplicativo è il caso dei sistemi di riconoscimento facciale: qualora addestrati su dati comprendenti primariamente volti di uomini bianchi, la loro accuratezza potrebbe risultare difettosa nel riconoscimento di volti femminili o di etnie diverse. Analogamente, un software di recruitment potrebbe interiorizzare le disuguaglianze storiche del mercato del lavoro se addestrato su dati che le riflettono, sviluppando una tendenza a trascurare candidati appartenenti a gruppi socialmente svantaggiati.

In linea teorica, la risoluzione di questo problema è complessa, poiché si collega a variabili come la qualità, la quantità, la rappresentatività e la trasparenza dei dati usati per addestrare gli algoritmi. Inoltre, i bias possono radicarsi anche nelle scelte operative dei designer, degli sviluppatori e degli utenti dei sistemi di intelligenza artificiale, ognuno dei quali può avere interessi, aspettative e opinioni differenti. Il Machine unlearning potrebbe rappresentare una soluzione valida per mitigare notevolmente l’impatto dei bias del dataset, consentendo alle AI di dimenticare tutte le informazioni potenzialmente pericolose per l’equità dei risultati.

Garantire la privacy dei dati e la sicurezza delle AI

Un’altra sfida chiave per i ricercatori è comprendere come il Machine unlearning può garantire la privacy dei dati. La questione della privacy nei dataset utilizzati per l’addestramento dell’intelligenza artificiale spesso mette a nudo un problema di fondamentale importanza: la possibile violazione dei dati personali o sensibili degli utenti, utilizzati senza il loro consenso o addirittura all’insaputa degli stessi. Questo può comportare rischi significativi per la sicurezza, la reputazione, la libertà e i diritti delle persone coinvolte.

Un esempio particolarmente sensibile è quello dei dati biometrici, come impronte digitali, riconoscimento facciale o voci personali, estratti dai dataset e potenzialmente utilizzati per tracciare, identificare o impersonare gli utenti. Analogamente, i dataset potrebbero includere dati personali come preferenze, opinioni, abitudini o relazioni personali degli utenti che, se usati impropriamente, potrebbero essere utilizzati per emergenti strategie di profilazione, manipolazione o influenza.

Anche in questo caso la capacità di “dimenticare” le informazioni sensibili fornita dagli algoritmi di Machine unlearning potrebbe diventare un cardine delle strategie a garanzia della protezione del dato personale e del diritto all’oblio degli utenti.

Un’altro dei problemi che il Machine unlearning potrebbe aiutare a risolvere è quello della sicurezza delle AI. Centinaia di paper tecnici dimostrano come praticamente tutti i modelli di AI attualmente in uso sono potenzialmente vulnerabili a differenti tipi di attacchi volti a manipolarne il comportamento. Un algoritmo in grado di modificare la capacità di ricordare di un sistema autonomo potrebbe essere utilizzato con successo per correggere vulnerabilità del modello e proteggerlo dai cyber-attacchi.

Limitazioni e sfide per il futuro del Machine unlearning

La strada verso sistemi di Machine unlearning efficaci, che non impattino sulle prestazioni delle AI, richiede uno sforzo ancora maggiore di più ricerca e sviluppo. Al fine di superare le sfide presenti e future, è essenziale uno sforzo costante in termini di innovazione tecnologica e metodologica. Questo abbraccia sia il perfezionamento degli algoritmi esistenti, sia lo sviluppo di nuovi metodi che possano adattarsi alle diverse esigenze di apprendimento delle macchine e alle varie architetture di reti neurali artificiali attualmente in uso.

Organizzare la ricerca sul Machine unlearning è una delle prime sfide da affrontare per velocizzare gli sviluppi in questa direzione. Serve coinvolgere esperti provenienti sia dal mondo accademico sia industriale permette di affrontare il problema da diverse angolazioni, abbracciando una molteplicità di soluzioni specifiche valide sia per le AI almeno parzialmente Open Source sia per i modelli commerciali chiusi. Ci si aspetta che l’urgenza di tale sfida possa non solo incentivare la ricerca nel campo specifico dell’arte del dimenticare, ma anche promuovere uno scambio di idee e soluzioni a livello globale, dando un contributo decisivo alla sicurezza e all’affidabilità delle intelligenze artificiali che iniziano ad occupare un posto rilevante nella vita di milioni di persone.

Conclusioni

Il Machine unlearning segna un’appassionante nuova direzione per il campo dell’apprendimento delle macchine, che tiene conto dei bisogni delle persone e dei requisiti etici che un’intelligenza artificiale deve garantire. Per godere delle capacità rivoluzionarie delle AI mitigandone impatti negativi e rischi potenziali è necessario trovare un equilibrio tra l’oblio dei dati, l’utilità del modello e l’efficienza dei sistemi, mentre sviluppiamo standard e protocolli per la valutazione e il confronto di diversi metodi. Un compito non da poco, di cui sia la comunità scientifica che quella industriale sono più che pronte a farsi carico per garantire un futuro tecnologicamente avanzato e umanamente etico.

Articoli correlati

Articolo 1 di 2