CONNESSIONI SINTETICHE

VideoPoet, cos’è il generatore di video di Google

Sviluppato da Google Research Lab, è un innovativo strumento di AI capace di generare video a partire da prompt testuali. Combina deep learning e tokenizzatori audio-video per creare contenuti visivi dinamici, aprendo nuove frontiere nella produzione video creativa

Pubblicato il 2 feb 2024

Gioele Fierro

CEO e Founder Promezio Engineering

VideoPoet è un nuovo strumento dei Google Research Lab per la generazione di video coerenti a partire da prompt testuali. Un’intelligenza artificiale potenzialmente in grado di abbattere le barriere creative nel settore del videomaking, realizzando in pochi minuti qualsiasi contenuto che una persona ricca di inventiva possa concepire.

Indice degli argomenti:

Come funziona VideoPoet

VideoPoet è basato su reti neurali per il deep learning, sistemi in grado di apprendere compiti e correlazioni complessi analizzando in autonomia grandi quantità di dati. Le reti neurali artificiali di VideoPoet sono state addestrate per codificare le relazioni tra sequenze di immagini, suoni e testo, consentendo al modello di convertire istruzioni testuali in video.

WHITEPAPER

Scopri i trend AI del 2025: Scarica il report degli Osservatori del Politecnico di Milano

Intelligenza Artificiale

Marketing

Il processo di generazione dei video avviene seguendo tre passaggi fondamentali:

Segmentazione del testo: il testo viene suddiviso in segmenti, ognuno dei quali rappresenta un’idea o un concetto. Questa elaborazione consente alla rete neurale di comprendere il significato del testo e di contestualizzarlo.
Associazione di immagini e suoni: a ogni segmento di testo vengono associati un’immagine e un suono appropriati. Queste immagini sono temporalmente coerenti tra loro, per creare una sequenza di eventi credibile.
Videocomposizione: le immagini e i suoni generati vengono combinati per realizzare un video completo.

Dal punto di vista tecnico, VideoPoet è costituito da una combinazione di due componenti chiave: un tokenizer video pre-addestrato (MAGVIT V2) e un tokenizer audio (SoundStream). Questi due elementi trasformano video e clip audio di lunghezze variabili in una sequenza di codici discreti, dando vita a una sorta di vocabolario che si integra facilmente con i modelli di linguaggio basati su testo (LLM). Questa architettura innovativa consente a VideoPoet di affrontare una varietà di obiettivi di apprendimento generativo multimodale, tra cui la creazione di video a partire da testo o immagini, la continuazione di frame video, l’inpainting e l’outpainting video, la stilizzazione video e persino la produzione di audio che si adattano ai video in input.

VideoPoet si distingue dagli altri sistemi generativi visti finora per la sua capacità di generare movimenti interessanti e di alta qualità all’interno dei video, dimostrando un’elevata coerenza temporale. Il modello è in grado di produrre video di durata variabile, mantenendo un’identità coerente degli oggetti presentati, anche attraverso iterazioni ed editing multipli.

Cosa può fare VideoPoet

Abbiamo già compreso le potenzialità dell’AI generativa grazie ai modelli di linguaggio come ChatGPT e Google Bard. VideoPoet amplia le possibilità creative di questi modelli, permettendo di associare significati e rappresentazioni visuali in movimento. La sinergia tra modelli di linguaggio e contenuti multimediali offre molte applicazioni, tutte particolarmente interessanti.

Il text-to-video consente di trasformare testi in contenuti video dinamici. L’utente fornisce un prompt testuale che descrive nel dettaglio l’azione da rappresentare e l’AI genera una narrazione visiva animata coerente con il prompt scritto.

Con il video-to-audio, VideoPoet è in grado di creare un accompagnamento audio sincronizzato e in sintonia con i frame di un video, senza necessità di un prompt esplicito da parte dell’utente. L’AI sarà in grado di aggiungere non solo effetti sonori ovvi, ma anche audio che catturano e interpretano l’atmosfera e il tono emotivo del video.

La funzionalità image-to-video permette di trasformare un’immagine statica in un video dinamico. Il processo di generazione inizia con un’immagine base fissa, accompagnata da un prompt di testo che descrive come l’immagine dovrebbe essere animata o quale storia dovrebbe raccontare. Basandosi su questi input, il modello AI genera un video che porta in vita l’immagine.

Il modello di Google è in grado di fare video editing guidato da prompt testuali. È possibile estendere la durata dei video controllando il tipo di animazione e il contesto dell’azione. Con l’inpainting l’AI può riempire automaticamente aree mancanti o danneggiate di un video. Questa funzionalità può essere utilizzata per rimuovere oggetti indesiderati in modo coerente con il contesto circostante. La funzionalità di outpainting consente di estendere i bordi di un’immagine o di un video oltre i suoi limiti originali. Grazie a questa funzione è possibile generare nuove parti dell’immagine che siano in linea con il contenuto e lo stile esistenti, permettendo di ampliare una scena senza farle perdere naturalezza. Ad esempio, un paesaggio ristretto può essere esteso per mostrare un orizzonte più ampio, oppure una scena urbana può essere allargata per includere più elementi della città.

La stylization di VideoPoet consente agli utenti di applicare diversi stili artistici e visivi ai video. Questo processo non si limita solo alla modifica dei colori o all’applicazione di filtri, ma comprende una reinterpretazione complessiva dell’intero video, mantenendo la coerenza visiva e il movimento, e incorporando informazioni di flusso ottico e profondità.

VideoPoet, accesso e disponibilità

VideoPoet ha un enorme potenziale e potrebbe cambiare radicalmente i modi in cui cui creiamo e consumiamo i contenuti video. In ambito education, questa intelligenza artificiale potrebbe essere impiegata per creare video personalizzati, adattando i contenuti multimediali ai bisogni specifici di ciascuno studente. VideoPoet potrebbe offrire ovvie applicazioni nella produzione di contenuti creativi per video musicali o videogiochi, abbattendo i costi di realizzazzione e le barriere d’accesso. Anche nel settore del marketing, il sistema generativo di Google potrebbe essere utilizzato per creare istantaneamente contenuti promozionali coinvolgenti e interattivi.

Google ha già pubblicato diversi video di esempio per dimostrare le potenzialità di VideoPoet, ma il lancio ufficiale del servizio non è ancora stato annunciato. Tuttavia, considerando le risorse necessarie per generare immagini e video tramite AI, è probabile che VideoPoet sarà disponibile a pagamento. In attesa di ulteriori comunicazioni da parte di Google, possiamo solo immaginare le possibilità offerte da questo strumento. VideoPoet potrebbe rivoluzionare la produzione di contenuti video, rendendo accessibile a tutti la magia dell’intelligenza artificiale. Presto vedremo le nostre fantasie creative prendere vita su schermo grazie a questo geniale generatore di video.

@RIPRODUZIONE RISERVATA