Google ha presentato Lumiere, un nuovo modello di text-to-video in grado di generare video realistici da brevi input di testo. Lumiere può persino utilizzare immagini e altri video come input per migliorare i risultati. Presentato in un documento intitolato “A Space-Time Diffusion Model for Video Generation”, Lumiere funziona in modo diverso dai modelli di generazione video esistenti. Genera una durata temporale del video in una sola volta, mentre i modelli esistenti sintetizzano fotogrammi chiave distanti seguiti da una super-risoluzione temporale.
In altre parole, Lumiere si concentra sul movimento degli oggetti nell’immagine, mentre i sistemi precedenti mettono insieme un video a partire da fotogrammi chiave in cui il movimento è già avvenuto.
Lumiere genera video da 80 fotogrammi
Il modello è in grado di generare video composti da 80 fotogrammi. A titolo di confronto, la Stable Video Diffusion di Stability raggiunge i 14 e i 25 fotogrammi. Maggiore è il numero di fotogrammi, più fluido è il movimento del video.
Secondo il team di Google, Lumiere supera i modelli di generazione video rivali, come Pika, Meta e Runway, in vari test, tra cui quello a zero scatti.
I ricercatori sostengono inoltre che Lumiere produce risultati di generazione all’avanguardia grazie al suo approccio alternativo. I risultati di Lumiere potrebbero essere utilizzati in attività di creazione di contenuti e di editing video, tra cui l’inpainting dei video e la generazione stilizzata (che imita gli stili artistici che vengono mostrati) utilizzando i pesi del modello testo-immagine, che sono stati finemente sintonizzati.
Fonte: Google
Lumiere, una nuova architettura Space-Time U-Net
Per ottenere i suoi risultati, Lumiere sfrutta una nuova architettura, Space-Time U-Net. Questa genera l’intera durata temporale del video in una sola volta, attraverso un singolo passaggio nel modello.
Il team di Google scrive che il nuovo approccio migliora la coerenza dei risultati. “Utilizzando sia il down-sampling che l’up-sampling spaziale e (soprattutto) temporale e sfruttando un modello di diffusione testo-immagine pre-addestrato, il nostro modello impara a generare direttamente un video a bassa risoluzione a pieno ritmo elaborandolo su più scale spazio-temporali”, si legge nel documento.
Fonte: Google
L’obiettivo del progetto Lumiere era quello di creare un sistema che consentisse agli utenti meno esperti di creare più facilmente contenuti video.
Tuttavia, il documento riconosce il rischio di potenziali abusi, avvertendo in particolare che modelli come Lumiere potrebbero essere utilizzati per creare contenuti falsi o dannosi.
“Riteniamo che sia fondamentale sviluppare e applicare strumenti per individuare i pregiudizi e i casi d’uso dannosi, al fine di garantire un uso sicuro e corretto”, si legge nel documento.
Al momento in cui scriviamo, Google non ha reso il modello disponibile al pubblico. Tuttavia, è possibile esplorare diversi esempi di generazione nella pagina di presentazione su GitHub.
Google intensifica il lavoro sui video
Lumiere segue VideoPoet, un modello multimodale prodotto da Google che crea video da input di testo, video e immagini. Presentato lo scorso dicembre, VideoPoet utilizza un’architettura di trasformazione solo decoder, che lo rende in grado di creare contenuti su cui non è stato addestrato.
Google ha sviluppato diversi modelli di generazione video, tra cui Phenaki e Imagen Video, oltre a prevedere di coprire i video generati dall’intelligenza artificiale con il suo strumento di rilevamento SynthID.
Il lavoro di Google sui video è complementare al modello Gemini, in particolare all’endpoint multimodale Pro Vision, in grado di gestire immagini e video come input e di generare testo come output.