Intel Labs, in collaborazione con Blockade Labs, ha presentato LDM3D: Latent Diffusion Model for 3D, un nuovo modello di diffusione che utilizza l’intelligenza artificiale generativa per creare contenuti visivi 3D realistici. LMD3D è il primo modello a generare una mappatura di profondità utilizzando il processo di diffusione per creare immagini 3D a 360 gradi brillanti e immersive. LDM3D ha il potenziale per rivoluzionare la creazione di contenuti, le applicazioni del metaverso e le esperienze digitali, trasformando molteplici settori, dall’intrattenimento e dai giochi all’architettura e al design.
“L’AI generativa mira ad aumentare e migliorare la creatività umana e a risparmiare tempo. Tuttavia, la maggior parte dei modelli di AI generativa oggi disponibili si limita a generare immagini 2D; solo pochissimi sono in grado di generare immagini 3D da istruzioni testuali. A differenza dei modelli esistenti di latent stable diffusion, LDM3D consente di generare un’immagine e una mappa di profondità da un dato messaggio di testo utilizzando quasi lo stesso numero di parametri. Fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi standard di post-elaborazione per la stima della profondità e consente agli sviluppatori di risparmiare molto tempo nella creazione delle scene”, dichiara Vasudev Lal, AI/ML research scientist, Intel Labs.
Intel LDM3D genera un’immagine o una mappa di profondità a partire da una singola indicazione testuale
Gli ecosistemi chiusi limitano la scalabilità e l’impegno di Intel per una maggiore diffusione dell’AI consentirà un accesso maggiore ai vantaggi di questa tecnologia attraverso un ecosistema aperto. Un campo che ha visto progressi significativi negli ultimi anni è quello della visione artificiale, in particolare nell’AI generativa. Tuttavia, molti degli attuali modelli di AI generativa avanzata si limitano a generare solo immagini in due dimensioni. A differenza degli attuali modelli di diffusione, che sono solo in grado di generare immagini RGB in 2D da prompt di testo, LDM3D consente di generare sia un’immagine, sia una mappa di profondità a partire da una singola indicazione testuale. Utilizzando quasi lo stesso numero di parametri della diffusione stabile latente, LDM3D fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi di post-elaborazione standard per la stima della profondità.
Questa ricerca potrebbe rivoluzionare il modo in cui interagiamo con i contenuti digitali, consentendo agli utenti di sperimentare le proprie indicazioni testuali in modi precedentemente inconcepibili. Le immagini e le mappe di profondità generate da LDM3D consentono agli utenti di trasformare la descrizione testuale di una serena spiaggia tropicale, di un moderno grattacielo o di un universo fantascientifico in un panorama dettagliato a 360 gradi. Questa capacità di acquisire informazioni approfondite può migliorare istantaneamente il realismo e l’immersività, consentendo applicazioni innovative per settori che vanno dall’intrattenimento e al gaming, dall’interior design ai render architettonici, nonché musei virtuali ed esperienze di realtà virtuale immersiva (VR).
Come funziona Intel LDM3D
LDM3D è stato istruito su un dataset costituito da un sottoinsieme di 10mila campioni del database LAION-400M, che contiene oltre 400 milioni di coppie immagine-didascalia. Il team ha utilizzato il modello di stima a grande profondità Dense Prediction Transformer (DPT) – sviluppato in precedenza presso Intel Labs – per annotare il corpus di addestramento. Il modello DPT-large fornisce una profondità relativa estremamente accurata per ogni pixel in un’immagine. Il dataset LAION-400M è stato creato per scopi di ricerca con l’obiettivo di formare modelli di test su scala più ampia per i ricercatori e altre comunità interessate.
Il modello LDM3D viene addestrato su un supercomputer Intel AI alimentato da processori Intel Xeon e acceleratori AI Intel Habana Gaudi. Il modello e la pipeline risultanti combinano l’immagine RGB generata e la mappa di profondità per generare viste a 360 gradi per esperienze immersive.
Per dimostrare il potenziale di LDM3D, i ricercatori Intel e Blockade hanno sviluppato DepthFusion, un’applicazione che sfrutta immagini standard RGB in 2D e mappe di profondità per creare esperienze di visualizzazione a 360 gradi interattive. DepthFusion utilizza TouchDesigner, un linguaggio di programmazione visiva basato su nodi per contenuti multimediali interattivi in tempo reale, per trasformare le indicazioni testuali in esperienze digitali interattive e coinvolgenti. LDM3D è un singolo modello per creare sia un’immagine RGB sia la sua mappa di profondità, portando a risparmi sull’utilizzo della memoria e a miglioramenti della latenza.
Intel Labs, prossimi sviluppi
La presentazione di LDM3D e DepthFusion apre la strada a ulteriori progressi nell’AI generativa multi-vista e nella visione artificiale. Intel continuerà a esplorare l’uso dell’intelligenza artificiale generativa per aumentare le capacità umane e costruire un solido ecosistema di ricerca e sviluppo open source volto a rendere più accessibile questa tecnologia. In linea con il supporto di un ecosistema aperto da parte di Intel, LDM3D viene reso open source tramite HuggingFace. In questo modo i ricercatori e gli sviluppatori nel campo dell’AI potranno migliorare ulteriormente questo sistema e adattarlo ad applicazioni personalizzate.
La ricerca di Intel viene presentata alla IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) in programma dal 18 al 22 giugno 2023.