Il riconoscimento facciale automatico (o face recognition) è un ramo di ricerca e sviluppo della computer vision che mira a donare alle macchine la capacità di rilevare volti umani, o di riconoscerli in un database. Il perfezionamento di queste tecnologie avrà un impatto significativo sulla nostra vita quotidiana in diversi modi. Le più grandi aziende sono già al lavoro per applicare il riconoscimento facciale automatico e arricchire la loro offerta di servizi sia a livello quantitativo che qualitativo. I governi e le forze dell’ordine stanno esplorando le possibilità, le minacce e i rischi ai quali queste novità ci espongono, muovendosi per ora in una zona grigia dal punto di vista legislativo.
Per sfruttare le opportunità di business che si presentano, è importante essere preparati. Avere un’idea di come funzionano i nuovi modelli, di come utilizzare i servizi cloud per costruire delle pipeline efficaci ed efficienti, così da adattare al meglio le tecnologie disponibili alle nostre esigenze.
Come funzionano i migliori modelli di face recognition
Negli ultimi anni si sono diffusi molteplici tecnologie e metodi per implementare il riconoscimento automatico dei volti. Semplificando a un livello che consente di individuare i punti salienti, gli attuali modelli allo stato dell’arte seguono tre passaggi:
- l’immagine è data in input all’algoritmo;
- l’algoritmo produce un embedding, cioè una proiezione in uno spazio vettoriale delle caratteristiche del volto;
- l’algoritmo compara gli embeddings prodotti con quelli del volto da verificare, oppure con quelli inseriti nella banca dati.
Questi step possono essere implementati e declinati in molti modi, ma costituiscono il core del modello, insieme al metodo di allenamento. L’allenamento del modello fa sì che, guidato dai dati, il nostro algoritmo possa imparare a trasformare un volto in un insieme di coordinate rappresentative. Il metodo più diffuso si chiama triplet loss ed è molto semplice:
- l’algoritmo riceve in input tre immagini, due della stessa persona e una di una terza;
- l’algoritmo aggiusta i suoi parametri in modo da massimizzare al contempo la similarità per le rappresentazioni delle prime due, e la differenza con la terza rappresentazione;
- il passaggio è ripetuto milioni di volte, su diverse triplette di immagini, così da garantire l’assimilazione di regole efficaci ma generiche.
Figura 1. Triplet loss tra due casi positivi (Obama) e un caso negativo (Macron). fonte
Una volta che il modello è allenato a compiere efficacemente la trasformazione da un volto a un embedding, esso può operare confronti anche su facce che non ha mai visto.
I migliori modelli sono arrivati ormai ad avere un potere riconoscitivo quasi perfetto in condizioni “normali”. Sono attualmente in fase di sviluppo diverse metodologie per cercare di attutire le problematiche che possono inficiare sulla accuratezza dovute a fattori intrinseci (invecchiamento, espressioni facciali, chirurgia plastica) ed estrinseci (occlusione, bassa risoluzione, rumore, illuminazione, variazione della posa) [1].
Utilizzi del riconoscimento facciale e possibili minacce
Le possibili applicazioni sono infinite, ma le funzioni più diffuse e più sviluppate al momento, riguardano sicuramente la sfera della sicurezza.
La sicurezza può beneficiare della face recognition, per esempio, sfruttando telecamere per identificare automaticamente le persone abilitate a sbloccare cellulari, porte, o ad effettuare pagamenti. Può essere sfruttato anche per riconoscere possibili soggetti a rischio per la sicurezza aeroportuale in modo veloce (qui la spiegazione di come se ne serve l’Interpol, o più in generale per aiutare le forze dell’ordine nel ricercare e controllare soggetti a rischio.
Purtroppo, un eccesso di sicurezza può facilmente trasformarsi in uno strumento autoritario. Ad esempio, di utilizzo discutibile di questa tecnologia, può essere portato ciò che ne sta facendo la Cina. Dopo aver installato milioni di telecamere (alcune stime sostengono ce ne siano 170 milioni, una per ogni 12 abitanti), aver salvato una enorme mole di identificativi, la Cina si serve di questi modelli per controllare e in alcuni casi modificare il comportamento dei cittadini; per esempio le telecamere sono state utilizzate per fare public shaming, ovvero per stigmatizzare comportamenti illegali proiettando su grandi schermi il misfatto corredato dalla foto e dal nome di chi lo compiva, oltre che per dare multe automatiche. I comportamenti scorretti variano dall’attraversamento fuori dalle strisce pedonali, ad addirittura uscire in pigiama.
Nei prossimi anni, sarà importante legiferare sul tema per far sì che questi strumenti vengano utilizzati sempre a beneficio delle comunità e nel rispetto della privacy. Negli USA, in alcune zone, sono già passate delle leggi che vietano o limitano l’utilizzo di questa tecnologia: per esempio, a San Francisco è fatto divieto alla polizia di utilizzare riconoscimento facciale automatico, per evitare problemi che potrebbero derivarne.
Strumenti cloud per sfruttarli al meglio
Ad oggi, tutte le più importanti piattaforme che offrono servizi di cloud computing (come Microsoft Azure, Amazon Web Services e Google Cloud Platform), garantiscono un supporto nell’implementazione di soluzioni production-ready che permettono di utilizzare, tra gli altri, algoritmi di face recognition.
Ad esempio Azure, permette di gestire tramite API un “gruppo di persone” al quale è possibile aggiungere fino a 1 milione di identificativi corredati da foto, e di utilizzarlo a piacere in pipeline di progetto, anche piuttosto complesse, per verificare o riconoscere quelle persone in nuove foto.
Opportunità di business
Sfruttare la tecnologia della face recognition può essere proficuo per molte aziende, per automatizzare processi e generare valore.
Questo è uno dei temi innovativi che ELIS Innovation Hub sta approfondendo in una serie di progetti di ricerca: una delle attività recenti in fase di svolgimento riguarda la Visual Sentiment Analysis come espansione applicativa del campo di Natural Language Processing (NLP). Uno degli obiettivi è stato quello di sviluppare uno strumento per riconoscimento automatico di personaggi famosi (VIP) da applicare alle immagini postate sui social media, ad esempio Instagram e Twitter, in una pipeline di continuous integration/continuous delivery. In questo modo è possibile riconoscere automaticamente i VIP nei contenuti multimediali e quindi poterli poi incrociare con la polarità (positivo/negativo/neutro) del sentimento espresso dal testo dei post, abilitando una comprensione del contesto/destinatari più completa e un’analisi più efficace del sentimento pubblico.
Ricerca e innovazione
La tecnologia corre a una velocità sempre costante, e con essa la necessità da parte di molte corporate di reinventarsi e innovare. Guardare al futuro è importante, e saper cogliere le giuste sfide al momento più opportuno può fare la differenza. L’open innovation ha aperto nuovi scenari di collaborazione tra il mondo industriale e il mondo accademico. La collaborazione tra questi due mondi si è rivelata fondamentale per ritrovare la capacità di innovare e reinventare il futuro. Università e industria parlano a volte linguaggi diversi e viaggiano su binari paralleli, ma dalla congiunzione dei due possono nascere collaborazioni molto interessanti.
I Joint Research Project del Consorzio ELIS sono un esempio di successo di questa collaborazione: 10 università e più di 30 aziende hanno raccolto i temi per avviare progetti di ricerca congiunta. La terza edizione di questa iniziativa è in avvio nel periodo di marzo 2021, con l’obiettivo di definire un nuovo concetto di conoscenza intesa come ecosistema dell’apprendimento, all’interno del quale le imprese e le università coinvolte producano e scambino valore, favorendo la nascita di una prolifica community tra dottorandi, professori e referenti aziendali.
Riferimenti bibliografici
- Schroff, Florian, Dmitry Kalenichenko, and James Philbin. “Facenet: A unified embedding for face recognition and clustering.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
- Anwarul, Shahina & Dahiya, Susheela. (2020). A Comprehensive Review on Face Recognition Methods and Factors Affecting Facial Recognition Accuracy. 10.1007/978-3-030-29407-6_36.
- Anwarul, Shahina & Dahiya, Susheela. (2020). A Comprehensive Review on Face Recognition Methods and Factors Affecting Facial Recognition Accuracy. 10.1007/978-3-030-29407-6_36.
- Alperen Kantarcı, & Hazım Kemal Ekenel. (2020). Thermal to Visible Face Recognition Using Deep Autoencoders.
- Yifan Sun, Changmao Cheng, Yuhan Zhang, Chi Zhang, Liang Zheng, Zhongdao Wang, & Yichen Wei. (2020). Circle Loss: A Unified Perspective of Pair Similarity Optimization.