ai generativa

OpenAI rilascia Sora per la generazione di video da testo



Indirizzo copiato

Un modello in grado di trasformare brevi descrizioni testuali in dettagliati filmati ad alta definizione ricchi di dettagli, della durata massima di 1 minuto. Un passo avanti significativo, che tuttavia solleva preoccupazioni sulla sua potenziale applicazione nell’ambito dei deepfake

Pubblicato il 16 feb 2024




Sora

Si chiama Sora il nuovo modello di video generativo di OpenAI che trasforma brevi descrizioni testuali in dettagliati filmati ad alta definizione della durata massima di un minuto. Per ora, l’azienda ha scelto di non condividere pubblicamente Sora – termine che in giapponese significa “cielo” – ma solo con un ristretto gruppo di tester per ragioni di sicurezza.

“Riteniamo che costruire modelli in grado di comprendere i video e tutte le complesse interazioni del nostro mondo sia un passo importante per tutti i futuri sistemi AI”, afferma Tim Brooks, scienziato presso OpenAI. Tuttavia l’azienda afferma che non rilascerà Sora nel prossimo futuro.

Fonte: OpenAI Sora

Dai primi modelli di AI generativa in grado di produrre video a Sora

I primi modelli generativi in grado di produrre video da frammenti di testo sono apparsi alla fine del 2022. Ma i primi esempi di Meta, Google e la startup Runway erano pieni di glitch e granulosità. Da allora, la tecnologia è migliorata rapidamente. Il modello gen-2 di Runway, rilasciato l’anno scorso, può produrre brevi clip che si avvicinano alla qualità delle animazioni dei grandi studi cinematografici. Ma la maggior parte di questi esempi dura solo pochi secondi. I video campione di Sora di OpenAI sono ad alta definizione e ricchi di dettagli. OpenAI afferma anche che può generare video fino a un minuto di durata. Un video di una scena stradale a Tokyo mostra che Sora ha imparato come gli oggetti si incastrano tra loro in 3D: la telecamera si tuffa nella scena per seguire una coppia mentre passeggia davanti a una fila di negozi.

OpenAI sostiene anche che Sora gestisce bene l’occlusione. Un problema con i modelli esistenti è che possono perdere traccia degli oggetti quando questi scompaiono dalla vista. Ad esempio, se un camion passa davanti a un cartello stradale, il cartello potrebbe non riapparire dopo. In un video di una scena sottomarina realizzata con carta, Sora ha aggiunto quello che sembrano tagli tra diverse parti di filmato, e il modello ha mantenuto uno stile coerente tra loro. Non è perfetto. Nel video di Tokyo, le auto a sinistra sembrano più piccole delle persone che camminano accanto a loro. Appaiono e scompaiono anche tra i rami degli alberi.

“C’è sicuramente del lavoro da fare in termini di coerenza a lungo termine”, dice Brooks. “Ad esempio, se qualcuno esce dalla vista per molto tempo, non tornerà. Il modello dimentica in un certo senso che doveva essere lì”.

L’annuncio di Sora da parte di OpenAI è un assaggio tecnologico, e l’azienda dice che non ha attualmente piani per rilasciarlo al pubblico. Invece, OpenAI inizierà a condividere il modello con tester di sicurezza terzi per la prima volta.

Fonte: OpenAI Sora

Come è realizzato Sora

Per costruire Sora, il team ha adattato la tecnologia alla base di DALL-E 3, l’ultima versione del modello flagship di testo-immagine di OpenAI. Come la maggior parte dei modelli di testo-immagine, DALL-E 3 utilizza quello che è noto come un modello diffusivo. Questi sono addestrati a trasformare una nebbia di pixel casuali in un’immagine. Sora prende questo approccio e lo applica ai video piuttosto che alle immagini statiche.

Ma i ricercatori hanno anche aggiunto un’altra tecnica al mix. A differenza di DALL-E o della maggior parte degli altri modelli generativi video, Sora combina il suo modello diffusivo con un tipo di rete neurale chiamata transformer. I transformer sono ottimi nel processare lunghe sequenze di dati, come le parole. Questo li ha resi l’ingrediente speciale all’interno dei grandi modelli linguistici come GPT-4 di OpenAI e Gemini di Google DeepMind.

Ma i video non sono fatti di parole. Invece, i ricercatori hanno dovuto trovare un modo per tagliare i video in pezzi che potessero essere trattati come se lo fossero. L’approccio che hanno ideato è stato quello di tagliare i video sia nello spazio che nel tempo. “È come se avessi una pila di tutti i fotogrammi del video e ne tagliassi dei piccoli cubi”, dice Brooks.

Il transformer all’interno di Sora può quindi elaborare questi pezzi di dati video nello stesso modo in cui il transformer all’interno di un grande modello linguistico elabora le parole in un blocco di testo. I ricercatori affermano che questo ha permesso loro di addestrare Sora su molti più tipi di video rispetto ad altri modelli da testo a video, variati in termini di risoluzione, durata, rapporto d’aspetto e orientamento. “Aiuta davvero il modello”, dice Brooks. “Non siamo a conoscenza di alcun lavoro esistente su questo”.

Sora

Preoccupazione per i deepfake

In particolare, l’azienda è preoccupata per i potenziali abusi dei video falsi ma fotorealistici. “Stiamo facendo attenzione alla distribuzione qui e ci stiamo assicurando di avere tutte le nostre basi coperte prima di mettere questo nelle mani del pubblico”, dice Aditya Ramesh, scienziato presso OpenAI, che ha creato il modello di testo-immagine DALL-E dell’azienda. Ma OpenAI sta guardando a un lancio di prodotto in futuro. Oltre ai tester di sicurezza, l’azienda sta anche condividendo il modello con un gruppo selezionato di videomaker e artisti per ottenere feedback su come rendere Sora il più utile possibile ai professionisti creativi.

“L’altro obiettivo è mostrare a tutti cosa c’è all’orizzonte, per dare un’anteprima di ciò che questi modelli saranno in grado di fare”, dice Ramesh.

“Da una prospettiva tecnica sembra un salto in avanti molto significativo”, dice Sam Gregory, direttore esecutivo presso Witness, un’organizzazione per i diritti umani specializzata nell’uso e nell’abuso della tecnologia video. “Ma ci sono due facce della medaglia”, dice lui. “Le capacità espressive offrono la possibilità a molte più persone di diventare narratori usando il video. E ci sono anche vere e proprie vie potenziali per l’abuso.”

OpenAI è ben consapevole dei rischi che comporta un modello generativo video. Stiamo già assistendo all’abuso su larga scala delle immagini deepfake. Il video fotorealistico porta tutto questo a un altro livello. Gregory nota che si potrebbe usare una tecnologia come questa per disinformare le persone sulle zone di conflitto o sulle proteste. La gamma di stili è anche interessante, dice lui. Se si potesse generare filmati traballanti che sembrano qualcosa girato con un telefono, apparirebbero come più autentici.

La tecnologia non è ancora arrivata a quel punto, ma il video generativo è passato da zero a Sora in soli 18 mesi. “Stiamo per entrare in un universo in cui ci saranno contenuti completamente sintetici, contenuti generati dall’uomo e una combinazione dei due”, dice Gregory. Il team di OpenAI prevede di sfruttare i test di sicurezza effettuati l’anno scorso per DALL-E 3.

Sora include già un filtro che funziona su tutti i prompt inviati al modello che bloccherà le richieste di immagini violente, sessuali o d’odio, così come le immagini di persone note. Un altro filtro esaminerà i fotogrammi dei video generati e bloccherà il materiale che viola le politiche di sicurezza di OpenAI, la quale afferma che sta anche adattando un rilevatore di immagini false sviluppato per DALL-E 3 da utilizzare con Sora.

L’azienda incorporerà i tag C2PA standard del settore, metadati che indicano come un’immagine è stata generata, in tutto l’output di Sora. Ma questi passaggi sono tutt’altro che infallibili. I rilevatori di immagini false sono incerti. I metadati sono facili da rimuovere e la maggior parte dei siti di social media li rimuovono dalle immagini caricate per impostazione predefinita.

“Dovremo sicuramente ottenere più feedback e saperne di più sui tipi di rischi che devono essere affrontati con il video prima che abbia senso per noi rilasciare questo”, dice Ramesh. Brooks concorda. “Parte del motivo per cui stiamo parlando di questa ricerca ora è che così possiamo iniziare a ricevere il feedback di cui abbiamo bisogno per fare il lavoro necessario a capire come potrebbe essere distribuito in modo sicuro”.

Articoli correlati

Articolo 1 di 4