I ricercatori di intelligenza artificiale di Google hanno elaborato un nuovo modo per migliorare l’apprendimento per rinforzo (RL), riutilizzando il lavoro computazionale precedente. Nell’articolo, Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress, il team propone di riutilizzare i dati registrati o i modelli appresi tra le iterazioni di progettazione di un agente RL a un altro agente.
I ricercatori affermano che il riutilizzo del lavoro computazionale potrebbe “migliorare significativamente l’adozione della RL nel mondo reale e contribuire a democratizzarlo ulteriormente”.
Cos’è Reincarnating RL
Reincarnating RL (RRL) è un “flusso di lavoro di ricerca molto (più) efficiente dal punto di vista computazionale rispetto alla tabula rasa RL e può aiutare a democratizzare ulteriormente la ricerca”, secondo gli autori del documento.
Il documento è stato pubblicato prima della conferenza NeurIPS 2022, con codici disponibili tramite GitHub.
L’apprendimento per rinforzo è un metodo di addestramento all’apprendimento automatico in cui i comportamenti desiderati vengono premiati mentre quelli non ricercati vengono puniti. In effetti, è un metodo per tentativi ed errori, con il sistema che apprende gradualmente i suoi compiti e l’ambiente circostante. RL può essere utilizzato per migliorare le implementazioni in settori come robotica, veicoli autonomi e agenti di dialogo.
Fonte: Google
La maggior parte dei sistemi basati su agenti sono sviluppati utilizzando il metodo tabula rasa della RL, in quanto sono costruiti da zero senza utilizzare conoscenze precedentemente apprese sul problema.
Il team di ricerca di Google sostiene che il metodo tabula rasa RL è “tipicamente l’eccezione piuttosto che la norma per risolvere problemi RL su larga scala”. Sostengono che la riqualificazione dei sistemi su larga scala è “proibitivamente costosa”, soprattutto considerando che molti subiscono molteplici cambiamenti e modifiche di progettazione.
“L’inefficienza della ricerca tabula rasa RL può escludere molti ricercatori dall’affrontare problemi computazionalmente impegnativi”, si legge in un post sul blog di Google degli autori (Rishabh Agarwal, Senior Research Scientist, e Max Schwarzer, Student Researcher, Google Research, Brain Team).
I ricercatori sostengono invece che il loro nuovo metodo riutilizzabile andrebbe a beneficio dei ricercatori in quanto non saranno necessarie risorse computazionali eccessive.
“RRL può consentire un paradigma di benchmarking in cui i ricercatori migliorano e aggiornano continuamente gli agenti addestrati esistenti, in particolare su problemi in cui il miglioramento delle prestazioni ha un impatto sul mondo reale, come la progettazione di chip”, affermano i ricercatori di Google.
Il documento afferma, tuttavia, che la “reincarnazione” dell’apprendimento per rinforzo sarebbe difficile per l’elaborazione del linguaggio naturale (NLP) e la visione artificiale in cui i modelli pre-addestrati sono raramente, se non mai, riprodotti o ri-addestrati da zero, ma quasi sempre utilizzati così come sono.
“Poiché la riproducibilità da zero comporta la riproduzione del lavoro computazionale esistente, potrebbe essere più costoso dell’addestramento della tabula rasa”, scrivono gli autori.