ai generativa

Sora di OpenAI; cos’è, come funziona il modello per la generazione di video da testo

Un modello in grado di trasformare brevi descrizioni testuali in dettagliati filmati ad alta definizione ricchi di dettagli, della durata massima di 1 minuto. Da marzo 2025 disponibile anche in Europa e in Italia. Un passo avanti significativo, che tuttavia solleva preoccupazioni sulla sua potenziale applicazione nell’ambito dei deepfake

Aggiornato il 1 mar 2025

Pierluigi Sandonnini

Si chiama Sora il modello di video generativo di OpenAI che trasforma brevi descrizioni testuali in dettagliati filmati ad alta definizione della durata massima di un minuto. In un primo tempo l’azienda ha scelto di non condividere pubblicamente Sora – termine che in giapponese significa “cielo” – ma solo con un ristretto gruppo di tester per ragioni di sicurezza.

Il 27 febbraio 2025 OpenAI ha dichiarato che sta per iniziare la fase di roll out di Sora nel Regno Unito e in Europa: in questo modo, questo tool avanzato sarà disponibile a una più ampia comunità creativa.

Sora è disponibile su ChatGPT Pro o Plus. Ciò significa che gli utenti in Europa avranno accesso a Sora Editor per generare, modificare e perfezionare video a partire da testi, foto e brevi video su Sora.com.

Il 12 dicembre 2024 OpenAI aveva rilasciato al pubblico dei suoi utenti paganti il suo modello di generazione video, Sora. L’annuncio è stato dato durante il quinto giorno di una maratona di 12 giorni di rilasci tecnologici e dimostrazioni. La sua disponibilità in Europa è stata ritardata a causa di questioni normative legate alla GDPR. Sora non è attualmente accessibile in Italia e in altri paesi dell’Unione Europea.

“Riteniamo che costruire modelli in grado di comprendere i video e tutte le complesse interazioni del nostro mondo sia un passo importante per tutti i futuri sistemi AI”, afferma Tim Brooks, scienziato presso OpenAI.

Introducing Sora — OpenAI’s text-to-video model

Guarda questo video su YouTube

Indice degli argomenti:

Cosa può fare Sora di OpenAI

OpenAI sostiene anche che Sora gestisce bene l’occlusione. Un problema con i modelli esistenti è che possono perdere traccia degli oggetti quando questi scompaiono dalla vista. Ad esempio, se un camion passa davanti a un cartello stradale, il cartello potrebbe non riapparire dopo. In un video di una scena sottomarina realizzata con carta, Sora ha aggiunto quello che sembrano tagli tra diverse parti di filmato, e il modello ha mantenuto uno stile coerente tra loro. Non è perfetto. Nel video di Tokyo, le auto a sinistra sembrano più piccole delle persone che camminano accanto a loro. Appaiono e scompaiono anche tra i rami degli alberi.

“C’è sicuramente del lavoro da fare in termini di coerenza a lungo termine”, dice Brooks. “Ad esempio, se qualcuno esce dalla vista per molto tempo, non tornerà. Il modello dimentica in un certo senso che doveva essere lì”.

L’annuncio di Sora da parte di OpenAI è un assaggio tecnologico, e l’azienda dice che non ha attualmente piani per rilasciarlo al pubblico. Invece, OpenAI inizierà a condividere il modello con tester di sicurezza terzi.

I video campione di Sora di OpenAI sono ad alta definizione e ricchi di dettagli. OpenAI afferma anche che può generare video fino a un minuto di durata. Un video di una scena stradale a Tokyo mostra che Sora ha imparato come gli oggetti si incastrano tra loro in 3D: la telecamera si tuffa nella scena per seguire una coppia mentre passeggia davanti a una fila di negozi.

Come è realizzato Sora di OpenAI

Per costruire Sora, il team ha adattato la tecnologia alla base di DALL-E 3, l’ultima versione del modello flagship di testo-immagine di OpenAI. Come la maggior parte dei modelli di testo-immagine, DALL-E 3 utilizza quello che è noto come un modello diffusivo. Questi sono addestrati a trasformare una nebbia di pixel casuali in un’immagine. Sora prende questo approccio e lo applica ai video piuttosto che alle immagini statiche.

Ma i ricercatori hanno anche aggiunto un’altra tecnica al mix. A differenza di DALL-E o della maggior parte degli altri modelli generativi video, Sora combina il suo modello diffusivo con un tipo di rete neurale chiamata transformer. I transformer sono ottimi nel processare lunghe sequenze di dati, come le parole. Questo li ha resi l’ingrediente speciale all’interno dei grandi modelli linguistici come GPT-4 di OpenAI e Gemini di Google DeepMind.

Ma i video non sono fatti di parole. Invece, i ricercatori hanno dovuto trovare un modo per tagliare i video in pezzi che potessero essere trattati come se lo fossero. L’approccio che hanno ideato è stato quello di tagliare i video sia nello spazio che nel tempo. “È come se avessi una pila di tutti i fotogrammi del video e ne tagliassi dei piccoli cubi”, dice Brooks.

Il transformer all’interno di Sora può quindi elaborare questi pezzi di dati video nello stesso modo in cui il transformer all’interno di un grande modello linguistico elabora le parole in un blocco di testo. I ricercatori affermano che questo ha permesso loro di addestrare Sora su molti più tipi di video rispetto ad altri modelli da testo a video, variati in termini di risoluzione, durata, rapporto d’aspetto e orientamento.

“Aiuta davvero il modello”, dice Brooks. “Non siamo a conoscenza di alcun lavoro esistente su questo”.

Kaku Drop, corti con Sora di OpenAI

Echoes of Grace · Kaku Drop with Sora

Guarda questo video su YouTube

Kaku Drop utilizza l’intelligenza artificiale generativa per creare cortometraggi a tema “Giappone”, “Donne” e “Dinamismo”. Con un’estetica unica e animazioni senza soluzione di continuità, il loro lavoro affascina il pubblico, offrendo nuove prospettive e storie che trascendono i confini dell’immaginazione e della realtà.

Ecco alcune affermazioni rilasciate da Kaku Drop:

Sora è più potente quando:
“In questo progetto Sora è stato molto efficace nel gestire il lavoro dinamico della telecamera”.

La cosa più eccitante di ciò che ho creato è:
“Mentre molte AI generative faticano a creare volti giapponesi, Sora è stato in grado di produrre bellissimi volti giapponesi”.

Come Sora ha influenzato il processo creativo:
“Lavoro nel campo dell’editing video e Sora ha il potenziale per diventare uno dei miei nuovi strumenti di editing video”.

Quanto tempo ho impiegato per realizzarlo / come si è svolto il mio processo:
“Essendo il mio primo progetto con Sora, ci sono voluti circa sei giorni per completarlo. Tuttavia, credo che la prossima volta potrò realizzarlo in tempi più brevi. Il mio processo di produzione prevede l’utilizzo della funzione Image to Video per aggiungere animazioni alle immagini generate dall’intelligenza artificiale. Poi compongo i video generati usando After Effects”.

Cosa voglio che gli altri artisti sappiano di Sora: “Anche chi non è esperto di VFX può creare facilmente espressioni con Sora!

Preoccupazione per i deepfake

In particolare, l’azienda è preoccupata per i potenziali abusi dei video falsi ma fotorealistici. “Stiamo facendo attenzione alla distribuzione qui e ci stiamo assicurando di avere tutte le nostre basi coperte prima di mettere questo nelle mani del pubblico”, dice Aditya Ramesh, scienziato presso OpenAI, che ha creato il modello di testo-immagine DALL-E dell’azienda.

“L’altro obiettivo è mostrare a tutti cosa c’è all’orizzonte, per dare un’anteprima di ciò che questi modelli saranno in grado di fare”, dice Ramesh.

“Da una prospettiva tecnica sembra un salto in avanti molto significativo”, dice Sam Gregory, direttore esecutivo presso Witness, un’organizzazione per i diritti umani specializzata nell’uso e nell’abuso della tecnologia video. “Ma ci sono due facce della medaglia”, dice lui. “Le capacità espressive offrono la possibilità a molte più persone di diventare narratori usando il video. E ci sono anche vere e proprie vie potenziali per l’abuso.”

OpenAI è ben consapevole dei rischi che comporta un modello generativo video. Stiamo già assistendo all’abuso su larga scala delle immagini deepfake. Il video fotorealistico porta tutto questo a un altro livello. Gregory nota che si potrebbe usare una tecnologia come questa per disinformare le persone sulle zone di conflitto o sulle proteste. La gamma di stili è anche interessante, dice lui. Se si potesse generare filmati traballanti che sembrano qualcosa girato con un telefono, apparirebbero come più autentici.

La tecnologia non è ancora arrivata a quel punto, ma il video generativo è passato da zero a Sora in soli 18 mesi. “Stiamo per entrare in un universo in cui ci saranno contenuti completamente sintetici, contenuti generati dall’uomo e una combinazione dei due”, dice Gregory. Il team di OpenAI prevede di sfruttare i test di sicurezza effettuati l’anno scorso per DALL-E 3.

Sora blocca la generazione di immagini violente e di persone note

Sora include già un filtro che funziona su tutti i prompt inviati al modello che bloccherà le richieste di immagini violente, sessuali o d’odio, così come le immagini di persone note. Un altro filtro esaminerà i fotogrammi dei video generati e bloccherà il materiale che viola le politiche di sicurezza di OpenAI, la quale afferma che sta anche adattando un rilevatore di immagini false sviluppato per DALL-E 3 da utilizzare con Sora.

L’azienda incorporerà i tag C2PA standard del settore, metadati che indicano come un’immagine è stata generata, in tutto l’output di Sora. Ma questi passaggi sono tutt’altro che infallibili. I rilevatori di immagini false sono incerti. I metadati sono facili da rimuovere e la maggior parte dei siti di social media li rimuovono dalle immagini caricate per impostazione predefinita.

“Dovremo sicuramente ottenere più feedback e saperne di più sui tipi di rischi che devono essere affrontati con il video prima che abbia senso per noi rilasciare questo”, dice Ramesh. Brooks concorda. “Parte del motivo per cui stiamo parlando di questa ricerca ora è che così possiamo iniziare a ricevere il feedback di cui abbiamo bisogno per fare il lavoro necessario a capire come potrebbe essere distribuito in modo sicuro”.

Queste voci di menu garantiscono un’esperienza utente fluida e personalizzabile, adattandosi alle esigenze creative di ogni utente.

Gli altri modelli di AI generativa in grado di produrre video

I primi modelli generativi in grado di produrre video da frammenti di testo sono apparsi alla fine del 2022. Ma i primi esempi di Meta, Google e la startup Runway erano pieni di glitch e granulosità. Da allora, la tecnologia è migliorata rapidamente. Il modello gen-2 di Runway, rilasciato l’anno scorso, può produrre brevi clip che si avvicinano alla qualità delle animazioni dei grandi studi cinematografici. Ma la maggior parte di questi esempi dura solo pochi secondi.

@RIPRODUZIONE RISERVATA