Connessioni Sintetiche

Computer vision: 3DP3, dal Mit un nuovo approccio probabilistico

Un gruppo di ricerca del Massachusetts Institute of Technology ha sviluppato un framework che, grazie alla programmazione probabilistica, cambia il modo in cui le macchine percepiscono il mondo che le circonda.

Pubblicato il 07 Gen 2022

Gioele Fierro

CEO e Founder Promezio Engineering

3DP3

L’approccio convenzionale alla computer vision si basa su reti neurali profonde che, dopo una complessa fase di training, riescono a riconoscere oggetti e parti di essi anche in scenari complessi. Questa classe di algoritmi basa le proprie valutazioni su stime delle diverse pose degli oggetti, riconosciute grazie a gruppi di pixel caratteristici, ma non è in grado di stabilire relazioni tra gli oggetti riconosciuti e quindi non consente un’accurata rappresentazione della realtà. I ricercatori del MIT che lavorano al progetto 3DP3 propongono un approccio non convenzionale al problema della computer vision, con un framework che usa la programmazione probabilistica.

Le applicazioni della computer vision richiedono specifiche sempre più complesse: il solo riconoscimento degli oggetti, privo di informazioni relazionali accurate, non è più sufficiente. Prendiamo ad esempio i sistemi di guida autonoma: in quel caso l’AI che interpreta le immagini non deve solo riconoscere cosa è inquadrato dalla camera, ma deve anche relazionare l’oggetto con l’ambiente circostante. Anche nell’ambito dell’automazione industriale sono richieste capacità di interazione con l’ambiente che necessitano di interpretazioni sempre più accurate dei dati raccolti dai sensori di immagine.

3DP3, come funziona il progetto del MIT

I ricercatori del MIT che lavorano al progetto 3DP3 hanno proposto in un paper un approccio non convenzionale al problema della computer vision, creando un framework che usa la programmazione probabilistica. Il concetto di base di 3DP3 segue i principi della computer grafica, ma all’inverso, usando modelli generativi che descrivono oggetti, scene e immagini. Il sistema riconosce le forme degli oggetti ed è in grado di posizionarli accuratamente all’interno di una scena complessa, descrivendo le relazioni di contatto tra di essi. Partendo da un’immagine, l’algoritmo di inferenza 3DP3 ricostruisce una scena in tre dimensioni che contiene oggetti e forme e, grazie alla gerarchia di informazioni spaziali che deduce, può posizionarne di nuovi in modo coerente.

La sfida del futuro per la computer vision è l’interpretazione coerente delle immagini, che tenga conto del contesto e della prospettiva; lo sviluppo di un’AI che superi bias e stereotipi provenienti dai training set, e che quindi descriva il mondo in maniera corretta ed equa. Questo perché la computer vision è lo strumento più potente che le macchine hanno a disposizione per interpretare il mondo reale. Nei casi in cui da questa interpretazione possono scaturire decisioni che influenzano le persone, l’accuratezza diventa un requisito imprescindibile.

3DP3

Dalla guida autonoma ai sistemi di sorveglianza

Abbiamo già parlato della computer vision applicata alla guida autonoma, ma ci sono molti altri ambiti nei quali la corretta interpretazione delle immagini da parte di un’intelligenza artificiale diventa critica. I sistemi di sorveglianza, ad esempio, fanno sempre più affidamento sulla video-analisi e, in questo caso, riconoscere e posizionare correttamente i soggetti nello spazio è una caratteristica chiave per l’affidabilità dei risultati. Anche in campo medico si iniziano a diffondere strumenti di diagnostica che si basano sulla computer vision e, in questo contesto, una descrizione approssimata delle immagini potrebbe addirittura portare a una diagnosi errata. Oltre a ciò, le applicazioni della computer vision sono in continuo aumento: in ambito industriale il controllo qualità, la gestione della safety e molti altri aspetti legati alla produzione sono gestiti da AI che analizzano i dati provenienti da videocamere ad altissima risoluzione.

Conclusioni

Il mercato ha bisogno di sistemi di computer vision sempre più accurati e la programmazione probabilistica è un potente strumento per l’evoluzione dell’intelligenza artificiale. Questo approccio prevede un modello parziale di partenza e una serie di algoritmi su base statistica che ne calcolano l’inferenza, ovvero una generalizzazione dei dati mancanti. I risultati ottenuti dal progetto 3DP3 sono promettenti, ma il framework non è ancora pronto per l’applicazione operativa: è ancora lento e macchinoso. Una versione riveduta e corretta, che magari operi in collaborazione con le reti neurali tradizionali per il riconoscimento degli oggetti, potrà rivoluzionare il modo in cui le macchine vedono e interpretano il mondo circostante.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati