Bias, quando la macchina apprende le cose sbagliate

Il grande nodo che dobbiamo affrontare è essere coscienti del fatto che saremo sempre esposti ai nostri bias e, pertanto, non limitarci a riprodurre i nostri schemi mentali, soprattutto se siamo le persone responsabili di progettare sistemi di machine learning

Parliamo di bias negli algoritmi. Ecco una frase che potremmo sentire pronunciare da chi frequenta i social network: “Non so cosa sia successo, ho pubblicato una foto che mi sembrava innocua e invece Facebook l’ha interpretata come violenta”.

In piattaforme digitali proprietarie in cui il contenuto è prodotto dalle persone e non esiste un meccanismo di pre-approvazione del contenuto stesso, ci sarà capitato9078 di aver avuto a che fare con qualche nostra conoscenza che abbia lamentato la frase con cui ho esordito. Senza urlare al complotto ordito contro la democrazia, siamo pur sempre in casa altrui, ma vittime di un meccanismo di moderazione ex-post.

Ovvero, per capirci: tu posti un contenuto di un certo tipo e si decide che questo qualcosa non sia adatto a rimanere visibile da tutte le persone, perché è fuori dalla policy della piattaforma stessa.

Ora, finché si tratta di un numero limitato di persone e di un quantitativo altrettanto circoscritto di contenuti, è facile che a operare questa moderazione sia una squadra in carne e ossa (o in carbonio) che confronta il contenuto in oggetto con le policy della piattaforma e nasconde il contenuto stesso alla vista altrui. Quando il numero dei contenuti è tale per cui la squadra in carbonio non ce la fa a scrutinare elemento per elemento, allora devono intervenire degli algoritmi diversi.

Indice degli argomenti:

Debunking algoritmo

Algoritmo: ovvero un insieme di passaggi logici che portano alla soluzione di un problema più o meno complesso.

Secondo Wikipedia: un algoritmo è una strategia che serve per risolvere un problema, costituito da una sequenza finita di operazioni (dette anche istruzioni), che consente di risolvere tutti i quesiti di una stessa classe.

Questa definizione, più che per pedanteria, preferisco darla subito perché è il cuore della questione. Affinché un algoritmo sia tale, dovrà essere definito da persone con la responsabilità opportuna. Dovrà contenere un numero finito (deterministico) di passi che dovrebbero essere tutti della stessa natura.

Che c’entra? Si definisce un algoritmo quando si sono definiti con ragionevole certezza i passi per risolvere un particolare problema e lo si applica in maniera più o meno automatica. Più l’algoritmo è affidabile più il margine della probabilità di errore deve essere ai minimi. Troppo complicato? Più semplicemente: se ho azzeccato a definire la soluzione di un problema automaticamente, sarà improbabile che mi sbagli.

Torniamo alla nostra moderazione dei contenuti automatica: in casa d’altri (i prodotti di Meta come Facebook, Instagram, WhatsApp lo sono) esistono regole per cui il proprio contenuto è accettato dai padroni di casa. Sto infatti parlando di moderazione, non di censura. Questa è fatta automaticamente, quindi esistono algoritmi che sono stati istruiti a riconoscere alcune caratteristiche in autonomia per segnalare alle persone dedite alla moderazione di nascondere o persino di farlo in autonomia.

Ora pensiamoci solo un secondo: questi algoritmi non vivono di vita propria, ma girano su computer più o meno potenti, che macinano contenuti e sgravano di lavoro manuale queste persone. Quindi, affinché lo facciano in maniera affidabile, devono essere istruiti per bene.

Apprendimento automatico?

Se ne può desumere che spesso questi algoritmi indovinino che il contenuto in effetti è fuori policy, che è offensivo, violento, razzista etc.
Ma è anche possibile che sbaglino a causa dell’istruzione ricevuta. A volte sbagliano clamorosamente, come nel caso di Mickey Mouse – meme che uso spesso quando devo far capire alle persone quanto dolore visivo mi sta procurando la loro opera… Proveremo a chiamare questo errore come di contesto.

Analizzando il contesto in cui questo contenuto viene utilizzato, probabilmente si capisce l’ironia o il sarcasmo con cui è inteso l’uso. La domanda è: “ma le macchine sanno analizzare il contesto?” Ecco, spesso no. Dà fastidio, ma è un livello di raffinatezza che ancora non hanno in maniera affidabile.

Però chiaramente questo non è l’unico possibile errore che un algoritmo ad apprendimento automatico può commettere (apprendimento automatico o Machine learning o più volgarmente, e erroneamente, intelligenza artificiale).

Criteri quali-quantitativi

Contesto oppure no, comunque l’errore che commette un algoritmo del genere e la sua percentuale di affidabilità nel prendere una decisione accettabile per chi l’ha impostato, dipende fortemente dalla quantità e dalla qualità dei dati che gli si danno in pasto per essere istruito.

La quantità è importante perché con un numero troppo esiguo di dati, un algoritmo predittivo (ovvero che tenta di dare una previsione di risultato) faticherebbe a essere affidabile. Fa parte della natura delle macchine e dell’informatica: una forte capacità computazionale e una capacità associativa pressoché nulla. L’esatto opposto di una persona.

D’altra parte, anche la qualità del dato è molto importante. Dati sbagliati, sporchi o polarizzati, inficiano la qualità del risultato. Questo può avvenire in due modi, benché spesso ci concentriamo solo sul primo: l’inaffidabilità. È chiaro che un dataset (ovvero un insieme di dati) sporco o con dati incoerenti rischia di dare previsioni del tutto errate, benché formalmente corrette.

Al contempo, siccome parliamo di previsioni basate sul passato, se diamo in pasto a un algoritmo un grande quantitativo di dati che, ad esempio, descrive le mirabolanti performance di persone che dirigono o hanno diretto aziende, i propri CV e la propria formazione degli ultimi 50 anni, avremo un altro tipo di sporcizia del dato. E qui diventa molto più interessante approfondire.

Provate ad aprire una tab del vostro browser per cercare “Successful CEOs” su Google Immagini e contate quante donne ci sono tra i risultati rispetto agli uomini. È chiaro che se il dataset dato in pasto a un algoritmo impiegato, ad esempio, per scremare le candidature lavorative per posizioni di responsabilità (o qualunque altra) basato su questo tipo di dati di partenza, sarà affetto da un gigantesco bias storico e sociologico.

Questo accade perché solo negli anni più recenti le donne hanno ottenuto riconoscimenti nel mondo lavorativo (seppure in percentuali del tutto marginali), pertanto il dato quali-quantitativo si presenta completamente sbilanciato nei confronti degli uomini. Di conseguenza, se un algoritmo partisse da questo dataset prenderebbe delle decisioni sessiste.

Sembra assurdo, no? Eppure, è quello che è successo a un arcinoto colosso dell’e-commerce di Seattle, che ha impiegato questo tipo di algoritmi per aiutare il processo di selezione delle persone candidate. Improvvisamente le donne venivano scartate dalle selezioni perché non corrispondevano ai criteri di successo quali-quantitativi. Attenzione, l’algoritmo era affidabilissimo dal punto di vista dell’efficienza. Persino troppo. Infatti, gestiva con estrema efficienza l’esclusione di tutte le candidate di sesso femminile o che all’interno del proprio percorso educativo avessero “femminile” come aggettivo (che so, collegio femminile). D’altra parte, quando è stato istruito, l’algoritmo ha imparato che i Successful CEOs erano per lo più uomini. Ma non basta, ovviamente. Infatti, negli ultimi 50 anni la maggior parte dei Successful CEOs non è solo uomo. È pure composta per lo più da bianchi.

Predizioni erronee

Un altro esempio davvero lampante è dato dal software di risk management legato ai crimini impiegato dalla London Metropolitan Police, chiamato Gangs Matrix. La coincidenza vuole che all’epoca il sindaco di Londra fosse Boris Johnson, l’attuale premier.

In un’inchiesta targata Amnesty International UK emerge che il dataset che è stato usato per istruire il software di supporto alle decisioni era fortemente polarizzato, ovvero biased, in sostanza pregiudizievole. Infatti, secondo l’organizzazione non governativa, c’era un enorme squilibrio: mentre il 72% delle persone identificate come responsabili di violenza riconducibile alle gang è nera – secondo la polizia di Londra – solo il 27% dei responsabili di violenza giovane è in effetti nera.

Se diamo in pasto a un sistema di supporto alla decisione un database molto sbilanciato su persone nere, lo stesso sarà molto bravo a identificare come potenzialmente pericolose più le persone nere che le altre. Ma non è solo una questione di polizia, ovviamente.

Un problema di dataset

È forse più chiaro come sia pericoloso, in questo senso, basare le proprie predizioni su un insieme di dati palesemente polarizzato attorno a un pregiudizio, o a una distorsione, dovuta al periodo storico-politico, tanto quanto lo sia non applicare un banalissimo problema di diversità della natura delle persone con cui testare un prodotto medicale.
Pur afferendo a domini diversi, stiamo in realtà parlando della stessa cosa.

Un dataset pregiudizievole a supporto di un sistema predittivo sposta infatti ex-ante il problema che, nel caso del dispositivo medicale, abbiamo ex-post. Con una differenza straordinariamente grande: le macchine sono veramente molto efficienti a eseguire gli algoritmi che gli diamo in pasto.

Se nel caso del dispositivo medicale potremmo semplicemente far uscire un nuovo dispositivo rivisto, nel caso di sistemi predittivi il cui output è una decisione, un’azione o un effetto del tutto automatizzato, potremmo non avere neanche l’occasione di rendercene conto. Anzi, moltissimi di questi strumenti possono essere fondamentali nell’aiuto alle intelligenze umane, proprio per la loro elevatissima efficienza a leggere, digerire e utilizzare enormi quantità di dati in pochissimo tempo e restituire un risultato che una persona raggiungerebbe in diverse centinaia di anni di calcolo. Questo è fuori discussione.

Ad esempio, l’approccio dell’apprendimento automatico è stato utilizzato da una startup in ambito farmacologico, per analizzare i cocktail di chemioterapia somministrati ai pazienti oncologici e individuare con più precisione i più adatti a combattere la tipologia di cancro da cui sono affetti. Al contempo dobbiamo renderci conto in che misura dare in pasto a un sistema molto efficiente le nostre tare mentali, i nostri pregiudizi o anche solo le nostre credenze di un qualche genere, possa creare effetti del tutto indesiderati in posti o circostanze che ignoriamo completamente.

Abbiamo tutti dei bias

Un personaggio molto importante della storia recente, Werner Heisenberg (fisico insigne, tra i padri della meccanica quantistica), nei suoi studi insegnava che “… l’osservatore perturba l’esperimento”. Ovvero è impossibile effettuare una misura, sosteneva, senza che la sola presenza dell’osservatore non ne modifichi il valore. Questo, ancora prima di essere un problema sociale, è un pezzo della natura umana.

Siamo la storia che abbiamo vissuto, le esperienze che abbiamo fatto, le scuole che abbiamo frequentato e, in una certa misura, l’educazione che abbiamo ricevuto. Anche quando diventiamo le persone più in gamba nella progettazione di strumenti di machine learning, restiamo questo.

L’enorme problema che stiamo affrontando non è questo, né la pretesa di voler essere oggettivi. Il vero grande nodo che dobbiamo affrontare è essere coscienti del fatto che saremo sempre esposti ai nostri bias e, pertanto, non limitarci a riprodurre i nostri schemi mentali, soprattutto se siamo le persone responsabili di progettare sistemi del genere. Sempre più sarà fondamentale porsi nell’ottica di includere la collettività tutta nella generazione dei nostri modelli di training e istruzione, affinché nel futuro l’esclusione non tocchi proprio a noi.