robotica

Meta AI e New York University presentano OK-Robot



Indirizzo copiato

Si tratta di un sistema robotico che combina modelli pre-addestrati di machine learning per eseguire compiti in ambienti che non conosce. Il robot può eseguire operazioni di prelievo e deposito senza necessità di addestramento specifico, aprendo nuove prospettive nell’ambito della robotica e dell’intelligenza artificiale

Pubblicato il 31 gen 2024



OK-Robot

Un framework basato su conoscenza aperta che unisce modelli pre-addestrati di machine learning (ML) per creare un sistema robotico capace di eseguire compiti in ambienti mai visti prima. Si chiama OK-Robot ed è il frutto di un recente studio condotto da ricercatori di Meta AI e della New York University.

Negli ultimi tempi, abbiamo assistito a notevoli progressi nei modelli di visione-linguaggio (VLM) che sono in grado di associare richieste in linguaggio naturale a oggetti presenti in una scena visiva. I ricercatori stanno sperimentando come questi modelli possano essere applicati ai sistemi robotici, i quali tuttavia faticano ancora a generalizzare le proprie competenze.

Il problema dei sistemi robotici attuali

Il framework, denominato OK-Robot, combina VLM con modelli di pianificazione del movimento e manipolazione degli oggetti per eseguire operazioni di prelievo e deposito senza necessità di addestramento.

I sistemi robotici sono solitamente progettati per essere impiegati in ambienti già conosciuti e mostrano difficoltà nel generalizzare le loro capacità oltre i luoghi in cui sono stati addestrati. Questa limitazione è particolarmente problematica in contesti dove i dati sono scarsi, come nelle abitazioni non strutturate. Nonostante ci siano stati progressi significativi nelle singole componenti necessarie per i sistemi robotici – i VLM si dimostrano efficaci nell’associare comandi linguistici agli oggetti visivi e le competenze robotiche per la navigazione e l’afferramento sono notevolmente avanzate – i sistemi robotici che combinano modelli di visione moderni con primitive specifiche per i robot continuano a mostrare prestazioni scarse.

Video: OK-Robot

“Per progredire su questo problema è necessario un framework attento e sfumato che integri sia i VLM che le primitive robotiche, pur essendo abbastanza flessibile da incorporare nuovi modelli man mano che vengono sviluppati dalla comunità di VLM e robotica”, scrivono i ricercatori nel loro studio.

OK-Robot, come funziona

OK-Robot combina VLM all’avanguardia con potenti primitive robotiche per eseguire compiti di prelievo e deposito in ambienti sconosciuti. I modelli utilizzati nel sistema sono addestrati su ampi dataset pubblicamente disponibili.

OK-Robot unisce tre sottosistemi principali:

  • un modulo di navigazione degli oggetti con vocabolario aperto
  • un modulo di afferramento RGB-D
  • un sistema euristico di rilascio.

Quando posizionato in una nuova casa, OK-Robot richiede una scansione manuale dell’interno, che può essere catturata con un’app iPhone che acquisisce una sequenza di immagini RGB-D mentre l’utente si muove all’interno dell’edificio. Il sistema utilizza le immagini e la posizione della fotocamera per creare una mappa dell’ambiente 3D. Il sistema elabora ogni immagine con un modello transformer visivo (ViT) per estrarre informazioni sugli oggetti. Le informazioni sull’oggetto e sull’ambiente vengono poi unite per creare un modulo di memoria semantica degli oggetti.

Dato un comando in linguaggio naturale per prelevare un oggetto, il modulo di memoria calcola l’incorporamento del comando e lo associa all’oggetto con la rappresentazione semantica più vicina. OK-Robot utilizza quindi algoritmi di navigazione per trovare il percorso migliore verso la posizione dell’oggetto in modo da fornire al robot lo spazio necessario per manipolare l’oggetto senza causare collisioni. Infine, il robot utilizza una fotocamera RGB-D, un modello di segmentazione degli oggetti e un modello di afferramento pre-addestrato per prelevare l’oggetto. Il sistema utilizza un processo simile per raggiungere la destinazione e rilasciare l’oggetto. Ciò consente al robot di trovare la presa più adatta per ogni oggetto e di gestire punti di destinazione che potrebbero non essere piani.

“Dal momento in cui arriva in un ambiente completamente nuovo fino a quando inizia a operare autonomamente, il nostro sistema impiega meno di 10 minuti in media per completare il primo compito di prelievo e deposito”, scrivono i ricercatori.

OK-Robot, test in dieci case e oltre 170 esperimenti

I ricercatori hanno testato OK-Robot in 10 case ed eseguito 171 esperimenti di prelievo e deposito per valutare le sue prestazioni in ambienti nuovi. OK-Robot ha completato con successo operazioni complete di prelievo e deposito nel 58% dei casi. È importante sottolineare che si tratta di un algoritmo a zero-shot, il che significa che i modelli utilizzati nel sistema non sono stati specificamente addestrati per tali ambienti. I ricercatori hanno inoltre scoperto che migliorando le richieste, sgombrando lo spazio e escludendo oggetti avversari, il tasso di successo aumenta a oltre l’82%.

OK-Robot è un sistema robotico OpenKnowledge, che integra una varietà di modelli appresi addestrati su dati disponibili pubblicamente, per prelevare e rilasciare oggetti in ambienti reali. Utilizzando modelli di Open Knowledge come CLIP, Lang-SAM, Any Grasp e OWL-ViT, OK-Robot raggiunge un tasso di successo del 58,5% in 10 ambienti domestici invisibili e disordinati e dell’82,4% in ambienti più puliti e ordinati

OK-Robot non è perfetto. A volte fallisce nell’associare il comando in linguaggio naturale all’oggetto corretto. Il suo modello di afferramento fallisce su alcuni oggetti e l’hardware del robot ha delle limitazioni. Ancora più importante, il suo modulo di memoria degli oggetti è bloccato dopo la scansione dell’ambiente. Pertanto, il robot non può adattarsi dinamicamente ai cambiamenti negli oggetti e nelle disposizioni.

Tuttavia, il progetto OK-Robot ha portato a scoperte molto importanti. Prima di tutto, dimostra che i modelli attuali di visione-linguaggio con vocabolario aperto sono molto bravi nell’identificare oggetti arbitrari nel mondo reale e nel navigare verso di essi in modalità zero-shot. Inoltre, i risultati mostrano che i modelli robotici specializzati pre-addestrati su grandi quantità di dati possono essere applicati “out-of-the-box” per affrontare l’afferramento con vocabolario aperto in ambienti sconosciuti. Infine, dimostra che con gli strumenti e la configurazione giusta, i modelli pre-addestrati possono essere combinati per eseguire compiti a zero-shot senza addestramento.

OK-Robot potrebbe rappresentare l’inizio di un campo di ricerca con ampio margine di miglioramento.

Articoli correlati

Articolo 1 di 4