I modelli di AI richiedono grandi quantità di dati per essere addestrati, e questi dati possono essere sensibili, come informazioni mediche o finanziarie. La condivisione inappropriata di questi dati potrebbe mettere a rischio la privacy delle persone. Una soluzione a questo problema arriva dall’apprendimento federato, un nuovo approccio all’AI in cui i modelli vengono addestrati su dati che rimangono sui dispositivi locali. In questo modo possiamo sfruttare i vantaggi offerti dall’intelligenza artificiale senza rinunciare alla nostra privacy.
Cos’è l’apprendimento federato?
Noto anche come federated learning, l’apprendimento federato offre un nuovo approccio all’apprendimento automatico degli algoritmi di machine learning che consente di addestrare modelli di intelligenza artificiale in modo collaborativo, senza dover condividere i dati sottostanti. Come è noto, uno dei maggiori problemi dell’AI riguarda la privacy e i dati personali che vengono usati per sviluppare modelli di apprendimento automatico.
L’apprendimento federato offre una soluzione al problema implementando un sistema distribuito che funziona in modo simile al machine learning tradizionale, ma dove i dati non vengono raccolti in un server centrale ma rimangono sui dispositivi degli utenti che li utilizzano per addestrare il modello localmente. Successivamente, solo gli aggiornamenti dei modelli vengono inviati al server centrale per l’aggregazione. Il modello addestrato viene quindi combinato in modo sicuro per creare un modello globale che rappresenti l’esperienza di apprendimento di tutti i partecipanti.
Questo approccio innovativo è stato introdotto per la prima volta nel 2016 da un gruppo di ricercatori di Google e ha visto la sua prima applicazione nel 2017 con la tastiera predittiva Gboard usata sui dispositivi mobile Android. Questa tastiera usa il federated learning per imparare le abitudini di digitazione degli utenti, offrendo un’esperienza di digitazione più personalizzata e accurata, il tutto senza dover trasferire i dati personali degli utenti ai server centrali. Il modello di correzione automatica viene addestrato direttamente sullo smartphone o sul tablet dell’utente, senza mettere a rischio la privacy dei dati.
Vantaggi
Il primo vantaggio offerto dal federated learning rispetto all’apprendimento centralizzato tradizionale è la privacy dei dati. I dati sensibili degli utenti non vengono inviati a un server centrale, ma rimangono sul dispositivo dell’utente e vengono utilizzati per addestrare il modello locale. Solo i parametri appresi dal modello locale vengono inviati al server centrale che li utilizza per aggiornate il modello globale. Questo è molto utile soprattutto in settori come quello della sanità dove è fondamentale poter proteggere i dati sensibili dei pazienti.
Con l’uso dell’apprendimento federato, poi, non è necessario avere una connessione a Internet continua perché l’addestramento del modello avviene direttamente sui dispositivi locali. Si ha, di conseguenza, un risparmio significativo di larghezza di banda.
L’apprendimento federato consente infine di sfruttare la diversità dei dati distribuiti e quindi di addestrare i modelli su set di dati molto grandi. Questo migliora la capacità del modello di generalizzare e affrontare una varietà di situazioni e si rileva importante in diversi settori come quello della guida autonoma o della diagnosi medica.
Tipi di apprendimento federato
Esistono diversi approcci all’apprendimento federato, che si differenziano in base alla struttura e a come i partecipanti alla “federazione” si coordinano. I più comuni includono:
Apprendimento federato centralizzato: si ha un’unica organizzazione dove un server centrale coordina i vari partecipanti proprietari dei dati e aggrega i modelli addestrati localmente per aggiornare il modello globale di intelligenza artificiale.
Apprendimento federato decentralizzato: in questo approccio viene a mancare il server centrale. I partecipanti alla “federazione” hanno la capacità di coordinarsi tra loro e sono in grado di scambiarsi i risultati delle proprie elaborazioni per ottenere il modello globale. Questa tipologia di apprendimento federato è più sicura ma anche più complessa da implementare.
Metodi per l’apprendimento federato
La privacy e la sicurezza dei dati durante l’addestramento dei modelli rappresenta un aspetto fondamentale nell’apprendimento federato, e per ottenerle vengono utilizzate diverse metodologie, tra le quali ci sono:
Federated Averaging: questa metodologia prevede che i modelli locali siano addestrati sui dispositivi o sui server remoti utilizzando i dati locali. Successivamente, i parametri dei modelli vengono aggregati in modo sicuro utilizzando algoritmi di aggregazione come la media ponderata o la mediana. In questo modo i dati non vengono mai condivisi tra i dispositivi coinvolti.
Secure Multi-Party Computation (SMPC): si tratta di una tecnica di crittografia che consente alle entità coinvolte nell’apprendimento federato di collaborare su un calcolo senza dover condividere le proprie informazioni private.
Differential Privacy: è una metodologia che funziona introducendo un certo livello di rumore ai dati sensibili prima di condividerli con altri client o col server centrale. Questo rumore rende impossibile risalire ai dati sensibili originali, proteggendo così la privacy dei partecipanti
Homomorphic Encryption: è una tecnica crittografica che consente di eseguire calcoli sui dati crittografati senza doverli decifrare. Questo consente di proteggere la privacy dei soggetti coinvolti poiché i dati non vengono mai rivelati in forma non crittografata durante l’addestramento dei modelli.
Secure Aggregation: questa metodologia viene usata per aggregare in modo sicuro i parametri dei modelli locali al fine di creare un modello globale. La Secure Aggregation garantisce inoltre che i parametri non vengano compromessi o manipolati durante il processo di aggregazione.
Applicazioni
Sono diversi i settori in cui trova applicazione l’apprendimento federato, settori in cui la privacy dei dati è una priorità. Il settore sanitario è sicuramente uno dei più importanti. Grazie all’apprendimento federato è possibile usare in sicurezza i dati dei pazienti per sviluppare modelli di apprendimento automatico per la diagnosi di malattie e la prescrizione di trattamenti. Un esempio recente è quello dell’Ospedale di Cambridge che ha usato un modello di federated learning per prevedere il bisogno di ossigeno dei pazienti COVID-19.
Altro settore in cui trova applicazione il federated learning è quello dei dispositivi mobile e delle tecnologie indossabili. Si possono addestrare modelli di intelligenza artificiale direttamente su dispositivi come smartwatch o braccialetti per il fitness e così fornire suggerimenti personalizzati o monitorare la salute degli utenti, il tutto senza dover condividere i dati delle persone che li indossano.
I giganti tecnologici utilizzano già da tempo l’apprendimento federato per migliorare i loro servizi attraverso l’AI. Google, ad esempio, lo usa per migliorare l’assistente vocale Google Assistant e il sistema di raccomandazioni YouTube, così come Apple lo usa per il suo sistema di riconoscimento vocale Siri. Microsoft, invece, lo impiega per migliorare il suo motore di ricerca Bing e il suo sistema di traduzione automatica.
Ma ci sono anche altri settori che possono beneficiare dell’apprendimento federato, come quello dei trasporti dove può essere utilizzato per addestrare modelli di apprendimento automatico per la navigazione autonoma e la gestione del traffico. Nella finanza, invece, viene impiegato per addestrare i modelli usati per prevedere il comportamento finanziario, combattere le frodi e migliorare la gestione del portafoglio.
Si tratta, quindi, di una tecnologia emergente ma con un potenziale molto ampio e che, molto probabilmente, verrà utilizzata in un numero crescente di applicazioni in futuro.