tecnologia

Come funziona ai4Sign, il progetto che usa l’AI per l’inclusività



Indirizzo copiato

Realizzato da Cloudia Research, tra i vincitori dell’Hackathon for Inclusion organizzato da Microsoft Italia, si basa su uno sviluppo di intelligenza artificiale generativa per promuovere nelle aziende e nella società una maggiore accessibilità a beneficio delle persone con disabilità

Pubblicato il 18 lug 2024

Marco La Camera

R&D Director di Cloudia Research



ai4Sign, udito, disabili

Obiettivo: inclusività. ai4Sign è un progetto di Cloudia Research tra i vincitori dell’Hackathon for Inclusion, organizzato e promosso da Microsoft italia. La soluzione, che ha ottenuto il primo posto nella categoria “udito”, si basa su uno sviluppo di intelligenza artificiale generativa che serve a promuovere nel mondo delle aziende e nella società una maggiore accessibilità a beneficio delle persone con disabilità.

In Italia, sono circa 100 mila persone a usare la LIS (Lingua Italiana dei Segni) per comunicare; non parliamo solo di persone non udenti, ma anche con altri disturbi della comunicazione (autismo, sindrome di Down, disprassie, demenze, ecc.), per i quali l’uso della lingua vocale è momentaneamente o definitivamente impossibilitato. Si stima che questo numero salga a 72 milioni se si considera tutto il pianeta.

Per questi individui oggi la comunicazione è estremamente difficoltosa, dal momento che devono affidarsi a un interprete oppure alla lingua scritta. Ciò rappresenta un ostacolo non solo in quelle situazioni in cui l’utilizzo della lingua scritta non è possibile (banalmente le conversazioni telefoniche), ma anche in ambiti in cui la comunicazione deve essere veloce per essere efficace, come nel contesto lavorativo. Il progetto Ai4Sign, basato sull’AI, cerca di offrire una soluzione per agevolare la comunicazione e abbattere, almeno in parte, le barriere comunicative.

La lingua dei segni, cos’è

La lingua dei segni, dal 2021 riconosciuta anche dal governo italiano come lingua a tutti gli effetti, presenta delle caratteristiche peculiari. In primo luogo, ha una propria sintassi e una sua struttura, che differiscono da quella italiana; per fare un esempio, i verbi non si coniugano in base al tempo ma devono concordare sia con il soggetto sia con l’oggetto dell’azione. Il tono della voce è sostituito dall’espressione del volto: ci sono espressioni per le domande dirette («Vieni?», «studi informatica?») una per domande complesse («quando vieni?», «cosa studi?») una per gli imperativi («Vieni!», «Studia!») e tante altre.

Il progetto Ai4sign

L’idea di base del progetto ai4Sign è estremamente semplice: utilizzare le videocamere presenti nei dispositivi che normalmente utilizziamo tutti i giorni (smartphone, tablet, pc, etc) per acquisire le immagini e, utilizzando un programma basato sull’AI, abbinare alle riprese raccolte una traduzione in tempo reale di quanto viene comunicato.

Il servizio dovrebbe essere accessibile sia da app su smartphone, per consentire l’utilizzo della traduzione nelle situazioni di vita quotidiana, sia da sistemi terzi in modo da poterlo integrare con altri sistemi di collaboration (ad esempio Microsoft teams). Il tutto per agevolare quelle situazioni in cui si utilizzano sistemi di comunicazione a distanza. Inoltre, per agevolare la comunicazione in entrambe le direzioni, il servizio prevede anche la possibilità di offrire una trascrizione del parlato, anche se questo genere di servizio è già ampliamente disponibile in tantissime forme.

Ai4sign, le varie fasi della tecnologia

In primis, si acquisisce il video e lo si scompone in fotogrammi. Questi vengono elaborati e sottoposti a un motore di Machine learning che abbina ai singoli frame la parola corrispondente. Successivamente, si passa a elaborare le espressioni facciali. I dati sono poi passati a un secondo sistema di AI, questa volta di LLM (Large Language Model), che ha il compito di elaborare le informazioni e fornire come output la traduzione desiderata, nella sintassi più adeguata; nel nostro caso, quella della lingua italiana.

Tutti i dati relativi all’utilizzo del servizio sono poi salvati su un database per arricchire il modello di informazioni e rendere il sistema più preciso.

L’analisi dei fotogrammi è una delle parti principali del sistema: questo tipo di analisi avviene tramite un programma opportunamente creato per estrapolare le informazioni necessarie. Il programma indentifica dei punti fissi dell’immagine (come ad esempio le spalle, i polsi, le nocche, gli occhi e le orecchie) e identifica le distanze tra questi punti. Queste distanze costituiscono dei vettori che presentano una posizione e un orientamento nello spazio: grazie allo spostamento dei vettori nei diversi fotogrammi che si susseguono nel tempo si riesce a creare una raccolta di vettori (un array di vettori) grazie ai quali il sistema di ML riesce a identificare il segno.

Immagine che contiene persona, vestiti, spalla, Viso umanoDescrizione generata automaticamente

ML e gli array di vettori

È ovvio e del tutto fisiologico che ogni segno genera infiniti array, dal momento che ogni segno non può essere eseguito esattamente nello stesso identico modo da diversi individui.

Quindi, il motore di ML prende un array e identifica la parola associata calcolando l’array più vicino o con caratteristiche simili in termini di variazione del tempo e di posizione. Per fare ciò, il sistema deve conoscere i segni e gli array ad esso associato e questa parte è demandata all’addestramento del modello.

L’addestramento è la fase più importante e più complessa dell’intero progetto. È necessario infatti passare ad un modello di ML di classificazione decine di array “standardizzati” (corrispondenti a decine di video per ogni parola) per consentire al sistema di “capire” le caratteristiche di ogni segno. Solo quando questa fase è completa possiamo chiedere al sistema di identificare il segno dando in input un nuovo array di vettori.

Ai4sign, il dataset

La raccolta di questi video (e, quindi, degli array di vettori corrispondenti) costruisce il dataset sul quale il modello viene addestrato. Più il dataset è ricco e ben strutturato, più il modello impara correttamente e più sarà preciso. È anche necessario che il modello continui a imparare per essere sempre aggiornato man mano che viene utilizzato.

Per creare questo dataset, si sta creando un portale web nel quale le persone che utilizzano la lingua dei segni possono contribuire alla raccolta di informazioni. Questa fase sarà essenziale per passare dal modello di test a un modello pienamente funzionante; inoltre, sarà fondamentale la collaborazione delle associazioni e di tutti gli utilizzatori di lingua dei segni.

Il progetto prevede di creare questo dataset e di metterlo a disposizione delle associazioni e delle università per contribuire alla ricerca e agli studi sulla lingua dei segni. L’obiettivo è di mettere le basi per una piattaforma condivisa che possa creare un sistema volto a migliorare la vita delle persone non udenti e di tutti coloro che usano la lingua dei segni per comunicare.

Articoli correlati

Articolo 1 di 2