Il 2022 porterà con sé il consolidamento di alcune tendenze già iniziate negli anni scorsi, come la crescita delle dimensioni dei modelli di linguaggio, l’uso dell’AI nella cybersecurity e il ricorso alle architetture Transformer anche per compiti diversi dall’elaborazione del linguaggio naturale. Oltre a queste, per i prossimi anni è prevista anche una novità tutt’altro che positiva: la diffusione dei deepfake casalinghi, che speriamo sia ancora molto lontana nel tempo.
Modelli di linguaggio più grandi ed efficienti
Il più famoso modello di linguaggio, quello che tutti chiamano in causa quando si parla di queste tecnologie, è GPT-3 di OpenAI. Generative Pre-trained Transformer 3 è un modello autoregressivo che conta 175 miliardi di parametri, in un ambito della tecnologia dove il numero di parametri e la qualità dei risultati sono strettamente correlati (più parametri ha un modello di linguaggio, migliore sarà il testo che produce). GPT-3 è stato il primo grande modello di linguaggio, o large language model (LLM), a essere conosciuto dal pubblico non specialistico, anche per il pregio di generare testi spesso indistinguibili da quelli scritti da un essere umano.
Ma nel corso di questi 18 mesi sono stati pubblicati modelli di linguaggio ancora più grandi, come Gopher di DeepMind con 280 miliardi di parametri, Exaone di LG con 300 miliardi di parametri, Megatron-Turing NLG da una collaborazione fra Microsoft e Nvidia, con 530 miliardi di parametri, GLaM (Generalist Language Model) di Google con 1,2 bilioni di parametri e il gigantesco Wu Dao 2.0, il LLM cinese da 1,75 bilioni di parametri prodotto dalla Beijing Academy of Artificial Intelligence (BAAI).
Quest’anno gira con insistenza la voce che OpenAI, che – non dimentichiamolo – riceve importanti finanziamenti da Microsoft, risponderà con GPT-4, il successore di GPT-3 addirittura con 100 bilioni di parametri. Un numero di variabili che farà impallidire i LLM prodotti finora, e che dovrebbe aprire le porte a una gestione del linguaggio da parte delle macchine a livelli mai visti prima.
Senza contare che i modelli di linguaggio possono essere usati anche per scrivere codice, come il progetto Copilot di GitHub (piattaforma che Microsoft ha acquistato nel 2018), creato sempre in collaborazione con OpenAI, in grado di aiutare gli sviluppatori a scrivere linee di codice basandosi sui loro input. Migliori modelli di linguaggio consentiranno dialoghi con le macchine pressoché indistinguibili da quelli con gli umani, oltre che una produzione automatica di codice molto più accurata e di qualità.
In questo contesto, un trend parallelo e innovativo è rappresentato dalla creazione di modelli di linguaggio più efficienti rispetto al numero di parametri usati. Uno dei grandi difetti dei LLM, infatti, è quello dei costi di produzione. Le spese in termini di risorse – informatiche ed energetiche – necessarie per addestrare un modello con miliardi o bilioni di parametri sono proibitive per la stragrande maggioranza delle aziende. I costi in energia, inoltre, hanno attratto le critiche di chi pensa che si stia consumando troppa elettricità per addestrare le reti neurali di grandi dimensioni.
Una risposta a queste critiche l’ha data DeepMind, che con il suo LLM chiamato RETRO (Retrieval-Enhanced Transformer), rilasciato verso la fine dello scorso anno, ha dimostrato come sia possibile realizzare un modello di linguaggio in grado di eguagliare le performance di LLM venticinque volte più grandi. RETRO ha “solo” 7 miliardi di parametri, ma grazie a un database di 2 bilioni di token, raggiunge gli stessi risultati di GPT-3, che con i suoi 175 miliardi di parametri è per l’appunto 25 volte più grande.
DeepMind probabilmente non invertirà la tendenza a creare LLM sempre più grandi, ma potrebbe dare il via a un trend parallelo volto ad aumentare l’efficienza dei modelli più piccoli, che rappresenterebbero quindi una valida alternativa per compiti che non richiedono una immensa potenza di fuoco.
Immagini prodotte da GPT-3
AI protagonista della cybersecurity
L’anno è iniziato con la notizia dell’acquisizione di Siemplify, un’azienda israeliana che usa il machine learning per la security orchestration, automation and response (SOAR), da parte di Google, che avrebbe pagato mezzo miliardo di dollari. Questa potrebbe essere l’acquisizione che darà finalmente il via al grande accaparramento di aziende di intelligenza artificiale da parte dei colossi della cybersecurity (ricordiamo che Google è molto attiva nella sicurezza informatica con Chronicle e Google Cloud Security).
Non c’è bisogno di sottolineare come la cybersecurity abbia acquisito in questi ultimi anni un ruolo di primaria importanza nel mondo della tecnologia, andando a interessare sia la politica e la diplomazia, sempre più intrappolate nel pantano delle guerre ibride, sia la privacy dei cittadini, che vedono i loro dati più sensibili alla mercè delle organizzazioni cybercriminali, per non parlare della regolare vita della società, che vede negare servizi essenziali ai cittadini quando strutture critiche come ospedali o enti pubblici cedono di fronte agli attacchi della criminalità cibernetica.
L’intelligenza artificiale è al centro di una rinnovata corsa agli armamenti, poiché può soddisfare allo stesso modo le esigenze degli attaccanti così come quelle dei difensori. Le regole di questa corsa sono due: 1) vince chi spende più risorse per realizzare i tool più sofisticati, 2) chi vince oggi potrebbe comunque perdere domani, perché qualsiasi tecnologia diventa obsoleta molto rapidamente ed è necessario stare sempre un passo avanti all’avversario.
Ecco dunque spiegato il motivo per cui il comparto AI & cybersecurity quest’anno potrebbe farsi molto caldo in fretta, con un’attenzione sempre maggiore verso gli attacchi generati con l’aiuto dell’intelligenza artificiale, che riesce a scoprire punti deboli prima nascosti a occhi umani e a effettuare attacchi automatici sempre più precisi, e una spasmodica ricerca di startup e tecnologie di difesa che diano “una marcia in più” alle soluzioni attuali, per individuare automaticamente attacchi prima invisibili e attuare in tempo reale contromisure complesse.
Pensiamo che, come spesso accade, le acquisizioni saranno un modo rapido e veloce per consentire alle aziende di sicurezza informatica, ormai grandi e consolidate, di integrare nuove e avanzate tecnologie di intelligenza artificiale nei loro prodotti. Lo sviluppo in-house, infatti, spesso mal si addice alla nascita di idee innovative e per certi versi spericolate come quelle che portano avanti le startup. Le acquisizioni, piccole e grandi, saranno un modo per consentire ai difensori di stare al passo con gli attaccanti, sempre più agguerriti e finanziati.
Il consolidamento delle architetture a favore dei Transformer
Nel mondo dell’intelligenza artificiale, quando parliamo di Transformer non ci riferiamo ai robot che combattono al cinema, bensì a una nuova architettura di rete neurale inventata da Google nel 2017 che ha rivoluzionato l’elaborazione del linguaggio naturale (NLP). Il già citato GPT-3, per fare un esempio, è basato su tale architettura.
Un trend iniziato negli ultimi due anni ma che sta rapidamente prendendo piede vede il consolidamento delle architetture di rete neurale verso i Transformer, che inizia a essere considerato molto più di un metodo utile solo per il mondo NLP.
La realizzazione che i modelli Transformer siano più che validi anche per le immagini, in molti l’hanno avuta nel giugno dell’anno scorso, con la pubblicazione dello studio “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale”, che ha portato molti altri ricercatori a sperimentare con questo metodo l’elaborazione delle immagini e dei video.
I risultati sono stati estremamente promettenti, tanto che i modelli con Transformer e quelli che usano un ibrido fra Transformer e CNN (le reti a convoluzione, finora la metodologia incontrastata per l’elaborazione di immagini e video) sono oggi ai primi posti nella classificazione immagini su ImageNet. ImageNet, lo ricordiamo, è il progetto di classificazione immagini che quasi dieci anni fa contribuì a lanciare il deep learning.
Fonte: Image Net
L’architettura Transformer si conferma quindi più versatile di quello che inizialmente si credeva, e ciò porterà a un maggiore ricorso a essa, o a soluzioni ibride, con un miglioramento dei risultati e un consolidamento dei metodi.
Deepfake casalinghi alla portata di tutti
Questa è una previsione che, per la verità, speriamo di spostare sempre più in là nel tempo, ma con cui prima o poi dovremo fare i conti. Arriverà il giorno in cui sarà rilasciato un software per la creazione di deepfake iper-realistici così facile da usare che consentirà a qualsiasi persona, senza troppe competenze tecniche, di creare un video deepfake partendo da poche fotografie della malcapitata vittima.
Creare video deepfake oggi è un’attività ancora relativamente complicata poiché servono conoscenze tecniche, come la dimestichezza con la creazione del dataset e il training del modello. Inoltre, per creare un deepfake di elevata qualità sono necessari livelli di capacità ed esperienza ancora non facili da acquisire. È ancora poco probabile che qualcuno alle prime armi sia in grado di realizzare deepfake verosimili senza le adeguate competenze tecniche. I video che oggi prendiamo come esempio per indicare il livello di sviluppo della tecnologia sono stati tutti realizzati da persone che sapevano molto bene come muoversi.
Inoltre, anche i tecnici più bravi hanno necessità di compilare un dataset abbastanza corposo e ben curato di video della persona target, un compito laborioso che necessita di risorse informatiche (storage, potenza computazionale), costanza nella pulizia del dataset, pazienza nell’eliminazione degli inevitabili errori e via dicendo. Per farla breve, servono conoscenze le tipiche di un data scientist navigato.
Per questo motivo finora le vittime dei deepfake a luci rosse sono state prevalentemente persone famose, attori e attrici di cui è possibile reperire facilmente moltissimi spezzoni video per l’addestramento dei modelli, e che ovviamente molti utenti consumatori di pornografia pagherebbero (e pagano) pur di vedere in video osè. Gal Gadot, Emma Watson, Elizabeth Olsen sono solo alcune delle celebrità che devono subire, loro malgrado, l’imbarazzo di essere ritratte in numerosi video a luci rosse che girano per i bassifondi di Internet, con il loro volto ricreato digitalmente e posto su corpi non loro.
Ma come può immaginare chiunque abbia un minimo di conoscenza dell’evoluzione della tecnologia, ciò che oggi è appannaggio di pochi tecnici, col tempo verrà migliorato, semplificato, fino a essere disponibile per qualsiasi persona con una comoda interfaccia punta e clicca. A quel punto non sarà difficile creare dal nulla video hard estremamente realistici aventi come protagonista la collega d’ufficio, l’insegnante, il compagno o la compagna di classe. Già si iniziano a vedere i primi goffi tentativi. È probabile che grazie all’arricchimento dei dataset con la generazione di dati sintetici come input basteranno poche fotografie o magari un solo video, certo nessun problema trovarli sui social media.
Da quel momento in poi non sarà infrequente la diffusione di video artefatti, nelle classi e negli uffici, che ritraggono compagni o colleghi in attività compromettenti. Video realizzati con una qualità tale da non consentire a chi guarda di capire se sono fake o reali, e con una semplicità tale da rendere il software disponibile a tutti, esperti e no, con tutti i problemi che ne conseguiranno in quanto a revenge porn, cyberbullismo, ricatti, eccetera.
Speriamo, dunque, che questo non avvenga nel 2022. Speriamo che nessuno realizzi un software che semplifica i deepfake. Speriamo che non avvenga neanche nel 2023. Speriamo che non avverrà mai, ma purtroppo ci rendiamo conto che nel giro di pochi anni questa previsione diverrà una triste realtà, aprendo nuovi scenari sociali e giuridici.