Il presente tecnologico, il futuro e la singolarità (o singularity) dell’intelligenza artificiale sono argomenti tra loro strettamente intrecciati e difficilmente trattabili con leggerezza, soprattutto visto il periodo tumultuoso e scientificamente frizzante che stiamo attraversando.
Ma se volessimo concretamente comprendere quanto il mondo stia davvero cambiando e quanto possa cambiare nell’immediato futuro grazie all’AI, dobbiamo cogliere alcuni segnali piuttosto che seguire titoli roboanti e fantascientifici.
Un approccio alla singolarità tecnologica
“Sono un quasi computer-scientist pigro e ignorante, quindi cerco di rendere i computer capaci di programmare sé stessi. Sto anche cercando di evitare di supervisionarli. E si scopre che sono così incapace che i computer sono più bravi a programmare se stessi di quanto sia bravo io a programmarli…”.
Questa frase è un post che Yann LeCun ha pubblicato il 30 maggio 2021 sul suo profilo Facebook. Ma chi è Yann LeCun? Basta dire due cose di questo “informatico pigro”: innanzitutto è stato insignito del prestigiosissimo Premio Turing nel 2019 insieme a Yoshua Bengio e Geoffrey Hinton, per i suoi contributi alla materia delle Reti Neurali Profonde (Deep Neural Networks); inoltre è l’inventore delle Reti Neurali Convoluzionali, le cosiddette CNN che sono un elemento fondamentale per i meccanismi di visione artificiale (Computer Vision).
Quando ho letto questo post ho avuto un sussulto emotivo perché dietro questa battuta si cela sicuramente una realtà molto seria e vasta. Innanzitutto, LeCun è uno dei principali scienziati oggi esistenti nel campo dell’intelligenza artificiale, ha una comprensione da insider dei meccanismi di funzionamento dell’AI e soprattutto ha accesso a risorse computazionali, umane e scientifiche come pochi hanno, dato che è il VP and Chief AI Scientist di Facebook.
Personalmente non sono mai stato un fan accanito del concetto di singolarità tecnologica, o meglio non ho mai sostenuto che questa fosse vicinissima. Forse il fatto che io abbia fatto indigestione sin da bambino di film di fantascienza mi ha reso immune o comunque sensibile ai segnali che ne evidenzino l’arrivo. Finora non ne avevo percepito neanche il sentore.
Cos’è la singolarità tecnologica
Per chi non ha ancora idea di cosa sia la singolarità tecnologica (singularity), mi piace usare le prime righe della prefazione del libro di David Orban – Singolarità, con che velocità arriverà il futuro (Hoepli) – ‘La singolarità tecnologica è il momento ipotetico nel quale saranno possibili intelligenze artificiali in grado di modificarsi’.
Partiamo dal concetto che il progresso segue una funzione esponenziale e non lineare, come evidenzia uno dei più famosi futurologi, Raymond Kurzweil, che già nel 2001 nel suo lavoro “The law of accelerating returns” ha sostenuto che mentre il ventesimo secolo ha visto un’accelerazione tecnologica in soli 25 anni, il ventunesimo secolo vedrà un cambio tecnologico mille volte maggiore rispetto al precedente periodo. Questo ritmo di innovazione travolge sicuramente tutto il panorama tecnologico ma nel campo dell’intelligenza artificiale si vede chiaramente una metamorfosi continua e una produzione incessante di innovazioni da parte della comunità scientifica come difficilmente se ne vedono in altri campi scientifici.
Il futuro prossimo non è la singolarità
Accantoniamo per un secondo il concetto di AGI, intelligenza artificiale generale, ossia l’intelligenza simile o superiore a quella umana, quella per cui gli stessi ricercatori stimano un tempo lungo per raggiungerla (2045, o per altri il 2060). Concentriamoci invece su quello che possiamo aspettarci molto più in un’epoca più prossima. Negli ultimi anni, gli ultimi cinque in particolare, alcuni campi specialistici di applicazione dell’AI come il Natural Language Processing e la Computer Vision hanno fatto dei salti avanti epocali, portando le capacità dei computer a livelli mai visti prima. Parliamo ad esempio della computer vision, ossia la possibilità per un computer di ‘comprendere’ l’immagine che gli viene sottoposta e fare su di essa una serie di attività come il riconoscimento degli oggetti, persone, azioni, posizioni del corpo ecc.
Ci stupivamo nel 2019 quando attraverso gli algoritmi generativi (StyleGAN2) si potevano generare nuovi visi completamente ‘inventati’ dalla macchina (come quello raffigurato nell’immagine di copertina di questo articolo) e abbiamo provato tutti a intravvedere qualche fattezza di personaggio famoso in quelle immagini del sito “Questa persona non esiste”. Ma nulla, non c’era traccia di nessun ‘copia e incolla’, le immagini erano verosimili, indistinguibili da una reale e la macchina ha dimostrato di aver capito come rappresentare un elemento della nostra realtà con precisione impareggiabile. La stessa cosa poi è stata fatta con gatti, opere d’arte e anche molecole chimiche. Oggi addirittura è possibile generare immagini sintetiche anche regolando parametri interni della generazione delle stesse (posizione, genere, colori, etnia, parametri somatici del viso ecc.).
Pensiamo alle applicazioni infinite in ambito ecommerce, fashion (come GarmentGAN), marketing ecc.
Opera generata sinteticamente
Nel 2015 l’occhio elettronico è riuscito a migliorare drasticamente la sua capacità di riconoscere più oggetti contemporaneamente in un foto/frame di un video con l’algoritmo YOLO (“You Only Look Once: Unified, Real-Time Object Detection” di Joseph Redmon et al.), che riesce a processare un’immagine a una velocità di oltre 45 frame/secondo. Questo ha permesso la creazione di centinaia di applicazioni in cui il riconoscimento di oggetti era la chiave per la value proposition per l’utente.
Oggi siamo già alla quinta versione di questo algoritmo e quotidianamente nel gruppo AI Intelligenza Artificiale Italia, c’è qualche valido data scientist che propone un nuovo e coraggioso progetto sfruttando queste librerie. La stessa cosa succede agli algoritmi di Pose estimation: oggi possiamo in real time estrarre lo scheletro (pose) da video e immagini e questo permette di comprendere le azioni, individuare se una persona cade, corre, salta, afferra oggetti, ma anche si può velocizzare un intero processo come quello cinematografico della computer graphic. Prima, per fare il motion capture di un attore (per intenderci quel processo col quale gli attori che impersonano un personaggio di fantasia, un mostro o un supereroe, vengono filmati e poi gli artisti degli effetti speciali li sostituiscono con il personaggio fatto con programmi 3D) servivano apparecchiature costose e expertise molto specialistiche oggi con un algoritmo di AI bene fatto, anche un normale computer casalingo può procedere con un motion capture efficace (video sotto).
Il Linguaggio Naturale: oggi l’AI sembra davvero intelligente
Come accennavo all’inizio di questo articolo, un altro settore dove negli ultimi anni i passi fatti sono enormi è quello del linguaggio naturale. Le tecniche di apprendimento del linguaggio, della sua traduzione, della sua sintesi artificiale, hanno visto avvicendarsi di recente diverse scoperte tecniche esponenzialmente potenti, esattamente come prevedeva Kurzweil. Da quando è stata inventata la rete neurale LSTM nel 1997 da Hochreiter e al., la capacità della macchina di interpretare e predire sequenze di numeri e, di conseguenza, parole, ha subìto una forte accelerata. Questo soprattutto perché queste reti hanno iniziato a comprendere come ‘ricordare’ o ‘dimenticare’ elementi importanti delle serie temporali testuali (come le frasi e i paragrafi), rendendo più efficaci processi di speech to text, text to text, text to speech.
Le reti ricorrenti, come si chiamano queste tipologie di reti che processano sequenze temporali di testo, scontavano però alcuni problemi tecnici endemici che le rendeva meno potenti su grosse moli di testi o su paragrafi molto corposi. Nel 2017 è stata introdotta una nuova tecnica detta ‘Transformers’, realizzata da Google e dall’University of Toronto, inizialmente pensata per fare solo traduzioni, che ha permesso di superare nettamente i limiti delle precedenti metodologie potendo contare sulla possibilità di parallelizzazione dell’addestramento. Questo ha significato che, avendo la giusta dotazione hardware, è possibile addestrare grandi modelli di rete neurale. Si è fatto un balzo in avanti nel campo del question and answering, della text summarization, della sentiment analysis ecc.
Nel 2020 poi, è stato annunciato da OpenAI, laboratorio di ricerca sull’AI fondato nel 2015, l’ormai famoso modello GPT-3, un modello addestrato su ben 175 miliardi di parametri, che è diventato un benchmark per molti operatori del settore della NLP e che promette una rivoluzione copernicana nelle applicazioni in cui il dialogo e il linguaggio sono protagonisti. Nei primi momenti della divulgazione delle sue applicazioni, si è diffuso il generale entusiasmo che l’AI avesse fatto il ‘salto’ tanto atteso verso l’AGI.
Tuttavia, il modello, a un’analisi più approfondita e agnostica, non risulta ancora ‘‘intelligente’ come il concetto di singolarità vorrebbe. Gpt-3 produce testi egregi (vedere il paper molto dettagliato di Luciano Floridi e Massimo Chiriatti sul tema GPT-3: Its Nature, Scope, Limits, and Consequences) e supera sicuramente dei task precedentemente impossibili per i suoi predecessori ma non ha una percezione cosciente di quello che esegue.
Sicuramente è un algoritmo fantastico e molto efficace ma non paragonabile ancora alle capacità umane di sintesi e creazione linguistica. A gennaio 2021, ricercatori di Google Brain hanno pubblicato un ulteriore modello chiamato Switch Transformer, un modello 6 volte più grande di GPT-3. Il ritmo dell’innovazione è incessante.
Nel 2022 Google Brain ha presentato Imagen in risposta al modello creato da OpenAI, DALL-E 2.
L’intelligenza artificiale impara a creare se stessa
Di recente è stato pubblicato su Technology Review un articolo molto illuminante dal titolo “AI is learning how to create itself”, l’AI sta imparando a creare se stessa. In questo articolo emerge un messaggio chiaro e molto interessante. I ricercatori di diverse aziende e enti di ricerca, stanno andando nella direzione di insegnare all’AI a calibrare i propri modelli, a creare i propri dati per auto-istruirsi e auto ottimizzare il proprio processo di apprendimento.
Questo è quello che in sintesi Yann LeCun lancia nel post che ho utilizzato all’inizio di questo articolo.
Una volta che abbiamo compreso come costruire algoritmi che non solo eseguono dei task ma che aiutano la macchina stessa a modificare il proprio codice o il proprio apprendimento attraverso meccanismi non supervisionati, possiamo dire che ci stiamo davvero incamminando nel solco della singolarità, con un processo simile alla definizione usata nel libro di Orban…
La macchina inizia già da oggi a creare dati e modificare il proprio modello di apprendimento in modi che l’uomo difficilmente comprende. Infatti, nell’articolo sopra riportato, con un meccanismo chiamato Generative Teaching Networks, la macchina per interpretare bene un dataset iniziale di numeri scritti a mano, ha generato nuove immagini sintetiche che non assomigliavano affatto alla scrittura umana ma che, in fin dei conti, ha migliorato sensibilmente la performance del modello, mentre le immagini generate risultavano comunque incomprensibile agli stessi ricercatori.
Probabilmente quindi, quello che ci aspetta nel prossimo futuro, è proprio un’ulteriore accelerata tecnologica e un’esplosione di potere applicativo degli algoritmi di AI. Questo potere come per ogni tecnologia, potrà essere appannaggio di corporation private oppure essere condiviso con il mondo per contribuire al miglioramento della vita umana.
Questo è sicuramente il senso più profondo di questa tecnologia. Ha il potenziale per essere non solo uno strumento di business ma può essere quell’intelligenza superiore che può aiutarci a scardinare ostacoli per noi incomprensibili, dalla salute con nuove cure, alle esplorazioni con nuove scoperte scientifiche, alla lotta alla povertà con nuove automazioni che rendano l’utilizzo delle risorse sostenibili e accessibili a tutti.
Questa è la singolarità che ci aspettiamo e sul cui percorso forse ci stiamo incamminando.