L’AI generativa che produce testo e immagini da testo è riuscita a conquistare il pubblico ed è diventata molto popolare, diffusa e utilizzata. Midjourney, uno dei software più in voga in questo settore – al pari di Dall-E di OpenAI e Stable Diffusion – ha raggiunto in circa un anno oltre 15 milioni di membri, mentre ChatGPT, dopo soltanto due mesi dal lancio, poteva vantare 100 milioni di utenti attivi. Più di recente, Big G ha introdotto Google Muse un modello superveloce text-to image che è indicativo del processo di sviluppo di questa tecnologia AI (inoltre, si vedano gli annunci effettuati al Google I/O 2023). Dato il successo ottenuto dall’intelligenza artificiale generativa, varie aziende e startup cercano di portare allo stesso livello di risultati i sistemi AI text-to-video (da testo a video – T2V).
Google e Facebook alla prova Text to Video
Già big tech come Google e Facebook (Meta) si sono cimentati nell’impresa di creare modelli in grado di generare, quasi istantaneamente, video da semplici descrizioni o prompt di testo.
Dai laboratori di ricerca dell’azienda di Mark Zuckerberg è nato lo scorso anno Make-A-Video. Big G, a stretto giro, ha risposto a Meta proponendo Imagen Video.
Quello di Facebook è un modello addestrato su dataset di immagini associate a didascalie e video ripresi da varie fonti come WebVid-10M, HD-VILA-100M, incluso piattaforme come Shutterstock e Youtube. Il risultato è che Make-A-Video è in grado di generare da una sequenza di parole una clip di 5 secondi senza audio.
Quanto a Imagen Video, frutto del team di ricerca Google Brain, è in grado di produrre video fino a una risoluzione di 1280 × 768 a 24 fotogrammi al secondo. Ma Big G sta lavorando anche al software text-to-video chiamato Phenaki che, secondo Dumitru Erhan, scienziato dello staff di Google Brain e uno degli autori del documento che ne descrive le caratteristiche, può produrre da un prompt di testo anche clip della durata di 2 minuti sebbene di qualità inferiore.
Tornando a Imagen Video e Make-A-Video, entrambi i sistemi AI, in ogni caso, sono basati su modelli di diffusione e non sono stati messi a disposizione dell’utenza per paura che possa diventare strumento di chi intende diffondere disinformazione più efficacemente e con maggiore rapidità.
D’altra parte, anche il gigante dell’e-commerce Alibaba, attraverso DAMO Academy, unità dedicata a ricerca e innovazione tecnologica, ha svelato Modelscope, sistema T2V che sfrutta un modello di diffusione. Il tool è disponibile online in una versione open source sul sito Hugging Face.
Runway
Nonostante le preoccupazioni di effetti negativi, la produzione T2V si prospetta come una nuova frontiera dell’AI generativa su cui stanno puntando grandi e piccole aziende tecnologiche.
Sotto questo aspetto, è degna di nota l’attività di Runway. Si tratta di una startup con sede a New York, fondata nel 2018, che ha contribuito a costruire il modello da testo a Imagine Stable Diffusion, collaborando con i ricercatori dell’Università di Monaco per realizzarne la prima versione, e che sviluppa da diversi anni programmi di editing video basati sull’intelligenza artificiale. I suoi strumenti sono utilizzati da utenti di TikTok e Youtube ma anche da importanti studi cinematografici e televisivi.
I produttori del talk show trasmesso dalla Cbs The Late Show con Stephen Colbert, tanto per fare degli esempi concreti, hanno usato il software di Runway per modificare la grafica dello spettacolo, mentre il team degli effetti visivi del film Everything Everywhere All at Once, che ha vinto sette premi Oscar e due Golden Globe, ha utilizzato la tecnologia dell’azienda per creare alcune scene.
Il modello Gen-1
Sin dal mese di febbraio 2023, il team di Runway, un piccolo gruppo di 45 persone, ha reso pubblico un nuovo modello di AI generativa chiamato Gen-1.
Il sistema consente di modificare video esistenti e, a partire da questa base, crearne di nuovi per mezzo di prompt di testo o di immagini. Gen-1 è simile a Dreamix di Google, che rientra in un ambito di AI generativa, lo stesso in grado di trasformare filmati generandone nuovi, ai quali vengono applicati specifici stili, grazie a all’impiego di un modello di diffusione.
Funzionamento e caratteristiche di Gen-1 sono illustrate in un documento elaborato dai ricercatori di Runaway e pubblicato sull’archivio arXiv. Il modello, secondo quanto riportato, è addestrato su dataset su larga scala con immagini accoppiate a testo e video non associati a testo. Analizzando migliaia di video, la tecnologia riesce a imparare a comporre in modo coerente una sequenza di fotogrammi.
I ricercatori spiegano che, come nei modelli di sintesi delle immagini, si addestra il sistema affinché produca contenuti che corrispondano alle immagini o alla descrizione di testo fornita da un utente. Dal momento che trasforma video esistenti è in grado di produrre clip più lunghe rispetto ad altri modelli.
Gen-1 funziona sul cloud tramite il sito web di Runway ed è stato reso disponibile a un numero di utenti invitati. Differentemente da Google e Meta, Runway ha costruito il suo modello a stretto contatto con la comunità di produttori video – come tiene a sottolineare Cristóbal Valenzuela, CEO e cofondatore della startup.
Video: Gen-1
Gen-2
A distanza di poco tempo, la divisione Research di Runway ha reso noto il modello successivo Gen-2, presentato come un sistema AI multimodale capace di generare video da testo, immagini e clip. Sul sito dedicato sono disponibili esempi di ciò che può produrre la nuova versione dell’intelligenza artificiale generativa. Digitando le frasi in inglese “a tranquil river in the forest”, o “a cat walking in the rain”, in meno di due minuti il sistema è in grado di sfornare brevi video di tre-quattro secondi di durata.
Addestrando Gen-2 su una quantità sempre maggiore di dati, il sistema, secondo i ricercatori, potrà migliorarsi progressivamente e presto generare brevi filmati professionali, con il complemento di musica e voce.
Malgrado i rischi, la scelta di Runway è quella di non tenere la tecnologia nel cassetto dei laboratori di ricerca ma di portarla a portata di una più ampia platea di utenti, che al momento possono iscriversi a una lista di attesa per potervi accedere. In tutti i modi, per impedire che Gen-2 venga usato per produrre pornografia, contenuti violenti e illeciti (vedi copyright) la startup ha peraltro attivato un meccanismo di controllo combinando sistemi AI e moderazione umana.
Conclusioni
L’area di intervento dell’AI generativa non smette di crescere allargandosi in modo significativo anche alla sfera text-to-video. Big tech come Google e Facebook ma anche startup come Runway hanno cominciato a realizzare sistemi capaci di produrre in poco tempo brevi clip da descrizioni testo prospettando un futuro in cui film e video potranno essere realizzati dalla tecnologia AI.