Stability AI, produttore di Stable Diffusion, ha presentato il suo primo modello di generazione video basato sul popolare sistema text-to-image. Stable Video Diffusion è un modello di intelligenza artificiale generativa in grado di creare video a partire da suggerimenti testuali.
Il modello può anche generare video da immagini fisse. Secondo il documento Stable Video Diffusion, il team che lo ha creato ha progettato il modello per garantire una modellazione da immagine a video ad alta risoluzione. Stable Video Diffusion è stato progettato per attività come la sintesi di più viste da una singola immagine, per cui gli animatori potrebbero usarlo per generare diverse angolazioni di un oggetto o per costruire ambienti 3D per esperienze VR e AR.
Come accedere a Stable Video Diffusion
Il modello è attualmente limitato alla sola ricerca. In un post sul blog di Stability si legge che il modello “non è destinato ad applicazioni reali o commerciali in questa fase”.Il team che lo ha creato sta cercando di ottenere feedback sulla sicurezza e sulla qualità per perfezionare il modello in vista di un eventuale rilascio. I ricercatori possono accedere al codice di Stable Video Diffusion tramite GitHub. I pesi necessari per eseguire il modello a livello locale sono disponibili su Hugging Face.
Stable Video Diffusion è disponibile attraverso due modelli di immagine-video, in grado di generare 14 e 25 fotogrammi a velocità personalizzate comprese tra tre e 30 fotogrammi al secondo. Tuttavia, nei primi segnali delle sue capacità, Stability ha condotto studi sulle preferenze degli utenti e ha scoperto che Stable Video Diffusion era preferito ai modelli rivali di Pika Labs e Runway per la generazione di video.
È possibile iscriversi alla lista d’attesa per accedere a un’esperienza web di prossima pubblicazione con un’interfaccia testo-video che illustra le applicazioni pratiche di Stable Video Diffusion nei settori dell’istruzione, del marketing e dell’intrattenimento.