Meta, la società madre di Instagram e Facebook, ha annunciato il lancio di modelli di intelligenza artificiale capaci di generare video realistici a partire da istruzioni testuali, denominata Movie Gen. Questi strumenti sono destinati a competere con le offerte di OpenAI e Runway, rivolgendosi a cineasti e creatori di contenuti. La suite di modelli permette di svolgere diverse attività, come la generazione di video fino a 16 secondi, l’editing video, l’abbinamento di suoni a video e la personalizzazione con immagini specifiche.
Meta pensa a Hollywood e agli influencer
Meta intende offrire questi strumenti di generazione video ai cineasti di Hollywood, artisti e influencer che creano contenuti sulle sue piattaforme social. Sebbene OpenAI abbia annunciato il suo modello di generazione video, Sora, a febbraio e lo abbia mostrato all’industria cinematografica, non è ancora stato rilasciato come prodotto. Meta, che ha rilasciato alcuni esempi di video generati dai suoi modelli, prevede che l’integrazione nelle sue piattaforme per gli utenti avverrà non prima del prossimo anno.
Le sfide tecniche e le potenzialità di Movie Gen
Connor Hayes, vicepresidente dei prodotti di intelligenza artificiale generativa di Meta, ha sottolineato che attualmente le funzionalità di editing e generazione video su Instagram potrebbero non soddisfare le aspettative degli utenti in termini di velocità. Tuttavia, ha aggiunto che “questi modelli potrebbero essere davvero potenti per la creazione e l’editing di Reels”, la funzione di creazione e condivisione video di Instagram.
Meta Movie Gen – esempio video
Un mercato in espansione
L’iniziativa di Meta si inserisce in un più ampio sforzo delle aziende tecnologiche di sviluppare strumenti utilizzabili nell’industria dell’intrattenimento, compresa la pubblicità, cercando di monetizzare i progressi dell’intelligenza artificiale. Ad esempio, Runway ha recentemente firmato un accordo con Lionsgate per addestrare un modello personalizzato sulla sua libreria di film.
Meta afferma che i suoi video superano quelli dei rivali, come Sora e Runway, in termini di “qualità complessiva, movimento, naturalezza e coerenza”, basandosi su valutazioni umane cieche. I modelli sono stati addestrati su “una combinazione di dataset con licenza e disponibili pubblicamente”, ma Meta non ha fornito ulteriori dettagli.
Meta Movie Gen in dettaglio
Movie Gen, un cast di modelli di fondazione che genera video HD di alta qualità a 1080p con diversi rapporti di aspetto e audio sincronizzato. Le funzionalità aggiuntive sono l’editing video basato su istruzioni precise e la generazione di video personalizzati in base all’immagine dell’utente.
I modelli stabiliscono un nuovo stato dell’arte su diversi compiti: sintesi testo-video, personalizzazione video, editing video, generazione video-audio e generazione testo-audio.
Il modello di generazione video più grande è un trasformatore con 30B parametri addestrato con una lunghezza massima del contesto di 73k token video,
corrispondente a un video generato di 16 secondi a 16 fotogrammi al secondo.
Scalando i dati di addestramento, i calcoli e i parametri del modello di un semplice modello basato su Transformer (Vaswani et al., 2017) addestrato con Flow Matching (Lipman et al., 2023) produce modelli generativi di alta qualità per video o audio.
per video o audio. I modelli sono pre-addestrati su immagini, video e dati audio in scala internet.
Movie Gen Edit
Meta ha ulteriormente migliorato il post-training del modello Movie Gen Video per ottenere video personalizzati condizionati dal volto di una persona. Si tratta di un’inedita procedura di post-training per produrre Movie Gen Edit, in grado di modificare con precisione i video. Insieme, questi modelli possono essere utilizzati per creare video HD personalizzati e realistici fino a 16 secondi (a 16 FPS) e audio a 48kHz, con la possibilità di modificare video reali o generati.
Per quanto riguarda la generazione da testo a video, Meta superato lo stato dell’arte precedente, compresi i sistemi commerciali come Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) per quanto riguarda la qualità complessiva dei video.
Inoltre, Video Gen Personalizzato e Movie Gen Edit abilita nuove capacità di personalizzazione dei video e di editing video preciso.
Entrambe queste capacità mancano negli attuali sistemi commerciali. Anche su questi due compiti, Meta ha superato tutti i lavori precedenti.
Infine, Movie Gen Audio supera lo stato dell’arte precedente, compresi i sistemi commerciali come PikaLabs (Pika Labs) e ElevenLabs (ElevenLabs) per la generazione di effetti sonori, per la generazione di musica e per la generazione di effetti sonori.
Per consentire il benchmarking futuro, Meta conta di rilasciare pubblicamente diversi benchmark.
Movie Gen, panoramica
Il cast di modelli Movie Gen genera video con audio sincronizzato, personaggi personalizzati e supporta il montaggio di video.
Queste ampie capacità sono ottenute grazie a due modelli di base:
Movie Gen Video. Un modello di base a 30B parametri per la generazione congiunta di testo-immagine e testo-video che genera video HD di alta qualità della durata massima di 16 secondi che seguono il testo richiesto.
Il modello genera naturalmente immagini e video di alta qualità in diversi rapporti di aspetto e con risoluzioni e durate variabili.
Il modello è pre-addestrato congiuntamente su O (100)M video e O (1)B immagini e impara a conoscere il mondo visivo “imparando” a leggere i testi.
Il modello preaddestrato è in grado di ragionare su movimento degli oggetti, interazioni soggetto-oggetto, geometria, movimento della telecamera e fisica, e apprende movimenti plausibili per un’ampia varietà di concetti.
Per migliorare le generazioni di video, si esegue il finetuning (SFT) su un piccolo insieme di video curati di alta qualità e didascalie di testo.
L’architettura del modello
Movie Gen Audio. Un modello di base a 13B parametri per la generazione di video e testo-audio in grado di generare effetti sonori cinematografici di alta qualità a 48kHz e musica sincronizzata con il video in ingresso e seguire una richiesta di testo in ingresso. Il modello gestisce in modo naturale la generazione di audio di lunghezza variabile e può produrre audio coerente di lunga durata per video fino a diversi minuti grazie a tecniche di estensione audio.
Meta ha pre-addestrato il modello su O (1)M ore di audio e ha osservato che apprende non solo l’associazione fisica, ma anche quella psicologica tra i video.
Il modello è in grado di generare suoni ambientali diegetici (musica che proviene da una fonte sonora presente e ben identificabile all’interno dell’inquadratura o della scena) che corrispondono alla scena visiva anche quando la fonte non è visibile e anche effetti sonori diegetici sincronizzati con le azioni visive. Inoltre, è in grado di generare musica non diegetica che supporta lo stato d’animo e si allinea alle azioni della scena visiva, e fondere effetti sonori e musica di sottofondo in maniera
Il Precise Editing permette agli utenti di eseguire senza sforzo modifiche precise e fantasiose su video reali e video generati utilizzando un’istruzione testuale. Dal momento che i dati di editing video supervisionati su larga scala sono più difficili da
di editing video su larga scala sono più difficili da ottenere, mostriamo un approccio innovativo per addestrare questo modello di editing video senza dati di editing video supervisionati.
Esempi delle capacità di editing video del modello
La personalizzazione permette al modello di generazione video di condizionare il testo e l’immagine di una persona per generare un video con la persona scelta. Il video personalizzato generato mantiene l’identità della persona dell’identità della persona, pur seguendo il testo richiesto. Si utilizza un sottoinsieme di video che contengono esseri umani e si costruiscono automaticamente coppie di input (immagine, testo) e output video per addestrare il modello.
Alcune preoccupazioni e responsabilità
La natura realistica dei video generati dall’AI e la capacità di replicare l’aspetto delle persone hanno sollevato preoccupazioni tra i lavoratori del settore, compresi attori e personale di produzione, riguardo all’impatto futuro di questi strumenti sui loro lavori. Meta ha sottolineato che l’AI generativa non sostituirà il lavoro di artisti e animatori e ha dichiarato che continuerà a cercare feedback da cineasti e creatori.
Inoltre, Meta ha annunciato che i video generati saranno contrassegnati con un watermark per evitare problemi di copyright e deepfake. Connor Hayes ha aggiunto: “Queste sono molte delle sfide che dovremo affrontare prima di poter lanciare responsabilmente un prodotto, ed è anche per questo che si tratta attualmente di un annuncio puramente di ricerca“.
Tutti i video di questo documento sono disponibili qui.