Insegnare ai robot a orientarsi non soltanto con le immagini ma anche con i suoni. Ci stanno provando i ricercatori del Robotics and Embodied AI Lab dell’Università di Stanford. Per consentire ai robot di spostarsi fuori dai magazzini e fare ingresso nelle nostre case, sarà necessario che imparino a orientarsi utilizzando più di un semplice sistema visivo. Oggi, infatti, la maggior parte dei robot dotati di intelligenza artificiale si avvale di telecamere per interpretare l’ambiente circostante e apprendere nuovi compiti. Tuttavia, sta diventando sempre più semplice addestrarli anche attraverso l’uso del suono, il che li aiuta ad adattarsi a compiti e contesti in cui la visibilità è ridotta.
Quando il suono è più utile della vista
Sebbene la vista sia importante, ci sono attività quotidiane in cui il suono risulta decisamente più utile. Ad esempio, ascoltare il friggere delle cipolle sulla padella può indicare se la temperatura è quella giusta. Fino ad ora, però, l’addestramento dei robot tramite audio è stato realizzato solo in ambienti di laboratorio altamente controllati e le tecniche utilizzate sono rimaste indietro rispetto ad altri metodi di insegnamento rapido. I ricercatori del Robotics and Embodied AI Lab dell’Università di Stanford hanno deciso di cambiare questa situazione, come riporta MIT Technology Review. Hanno sviluppato un sistema per la raccolta dei dati audio, composto da una telecamera GoPro e una pinza con microfono progettata per filtrare i rumori di fondo.
Dimostratori umani hanno utilizzato la pinza microfonica per svolgere una varietà di compiti domestici, dopodiché questi dati sono stati usati per insegnare a bracci robotici come eseguire autonomamente le stesse attività. I nuovi algoritmi di formazione del team aiutano i robot a raccogliere indizi dai segnali audio per migliorare le loro prestazioni.
“Finora i robot sono stati addestrati su video senza audio,” afferma Zeyi Liu, dottorando a Stanford e autore principale dello studio. “Ma nei dati audio ci sono molte informazioni utili”.
Quattro compiti per testare le capacità uditive dei robot
Per testare quanto possa essere più efficace un robot capace di “ascoltare”, i ricercatori hanno selezionato quattro compiti: girare un bagel in una padella, cancellare una lavagna bianca, unire due strisce di Velcro e versare dei dadi da un bicchiere. In ogni task, i suoni forniscono indizi che telecamere o sensori tattili faticano a cogliere, come sapere se il cancellino sta effettivamente toccando la lavagna o se nel bicchiere ci sono dei dadi. Dopo aver dimostrato ogni compito alcune centinaia di volte, il team ha confrontato i tassi di successo dell’addestramento con audio rispetto all’addestramento basato solo sulla visione.
I risultati dello studio
I risultati, pubblicati in uno studio su arXiv non ancora sottoposto a revisione paritaria, sono stati promettenti. Utilizzando solo la visione nel test dei dadi, il robot riusciva a determinare il 27% delle volte se c’erano dadi nel bicchiere; questa percentuale è salita al 94% includendo l’audio. Non è la prima volta che l’audio viene utilizzato per addestrare i robot, dice Shuran Song, responsabile del laboratorio che ha prodotto lo studio, ma rappresenta un grande passo verso l’applicazione su larga scala: “Stiamo semplificando l’utilizzo dell’audio raccolto ‘in natura’, anziché limitarci alla raccolta in laboratorio che richiede più tempo.”
La ricerca suggerisce che l’audio potrebbe diventare una fonte dati sempre più ricercata nella corsa all’addestramento dei robot con AI. I ricercatori stanno insegnando ai robot più velocemente che mai attraverso l’apprendimento per imitazione mostrando loro centinaia di esempi invece della programmazione manuale singola.
“È sicuro dire che l’audio è la modalità sensoriale meno studiata [nei robot],” dice Dmitry Berenson professore associato in robotics alla University of Michigan non coinvolto nello studio. Ciò perché gran parte della ricerca sull’addestramento dei robot nella manipolazione degli oggetti è stata dedicata alle attività industriali come ordinamento negli scaffali; queste non traggono grande vantaggio dal sonoro ma si affidano piuttosto ai sensori tattili o visivi.
Prossimo step, far migliorare i modelli con ulteriori dati
Tuttavia man mano che i robot si espandono verso ambienti domestici e cucine dove l’audio sarà sempre più utile. Considerate un robot alla ricerca delle chiavi dentro una borsa o tasca con visibilità limitata: “Forse anche prima di toccarle sentite tintinnarle,” osserva Berenson “Questo è un indizio che le chiavi sono in quella tasca piuttosto che in altre.” Tuttavia anche l’audio ha limitazioni: gli oggetti morbidi o flessibili come vestiti non producono abbastanza rumore utile mentre durante le operazioni i motori dei robot possono interferire, dato che questi rumori non erano presenti nei dati formativi umani; quindi gli studiosi hanno dovuto aggiungerveli affinché imparassero a ignorarli. Il prossimo passo secondo Liu sarà vedere quanto possono migliorarsi i modelli con ulteriori dati, cosa che potrebbe significare aggiungere altri microfoni raccogliendo audio spaziale e incorporandoli in altri dispositivi da collezione dati.