Un nuovo modello algoritmico costruito sulla base dell’apprendimento di giochi come gli scacchi e il poker potrebbe alimentare nuovi sistemi decisionali. Student of Games (SoG), realizzato da ex dipendenti di Google DeepMind, è stato presentato in un articolo pubblicato sulla rivista Science. Si tratta di un sistema generico progettato per comprendere e giocare sia a giochi “perfetti” – in cui ogni giocatore dispone di tutte le informazioni necessarie per giocare, come gli scacchi e il Go – sia a giochi che richiedono informazioni “imperfette”, come il poker e Scotland Yard.
Student of Games (SoG) è stato progettato per essere robusto, unificando vari approcci all’apprendimento dei giochi in un unico algoritmo. In precedenza, sistemi come il famoso Deep Blue, che ha sconfitto il grande maestro di scacchi Garry Kasparov, erano costruiti per giocare a un solo gioco. Un esempio più recente è AlphaGo di DeepMind, che giocava a Go ma non a scacchi; tuttavia, il suo successore, AlphaZero era in grado di padroneggiare tre giochi a informazione perfetta ma non il poker, un gioco a informazione imperfetta.
La versatilità di SoG potrebbe renderlo un utile sistema decisionale sotto forma di agente AI. Diversi membri del team che l’ha ideato lavorano ora presso EquiLibre Technologies, una startup che cerca di utilizzare la teoria dei giochi per costruire strumenti di trading algoritmico.
I ricercatori stanno cercando di espandere il sistema, anche riducendo le “notevoli” risorse di calcolo necessarie per ottenere risultati in domini impegnativi. “Una domanda interessante è se questo livello di gioco sia raggiungibile con meno risorse computazionali”, si legge nel documento.
Che cos’è Student of Games e come funziona?
L’algoritmo di Student of Games utilizza un albero di gioco, un grafico che mostra le possibili mosse in una partita. Le reti neurali del sistema imparano e si affinano per adottare una strategia per i diversi tipi di gioco.
Utilizzando una tecnica chiamata Growing-Tree Counterfactual Regret Minimization (GT-CFR), le opzioni dell’albero di gioco del sistema crescono dinamicamente, rendendolo in grado di affinare le strategie. Può anche migliorare ulteriormente tali strategie utilizzando l’auto-gioco sonoro: giocando contro se stesso, impara dagli errori.
In parole povere, si tratta di una situazione simile a quella di una partita di videogiochi continuamente persa a causa dell’impiego delle stesse tattiche. Provando qualcosa di diverso e sperimentando, il giocatore potrebbe ottenere un risultato migliore. Il SoG consiste nel migliorare le esperienze per ottenere risultati migliori.
SoG si basa su ricerche precedenti di DeepMind, che ha esplorato abitualmente modi per migliorare le capacità decisionali delle AI attraverso i videogiochi. Sistemi come AlphaZero sono “predecessori” di SoG, hanno detto gli autori.
Per migliorare questi sistemi precedenti, SoG ha preso una combinazione di concetti precedenti e li ha uniti, includendo le capacità di ricerca combinate e le reti neurali profonde di AlphaGo insieme al ragionamento teorico dei giochi e alla ricerca in giochi di informazioni imperfette di DeepStack, un sistema precedente costruito per giocare a poker.
Il modello risultante si comporta bene, giocando e riuscendo persino a battere il più forte agente AI disponibile apertamente nel poker Texas Hold ’em no-limit heads-up.
Un altro passo verso l’AGI?
L’intelligenza artificiale generale (AGI) è l’idea che i sistemi di AI possano svolgere autonomamente qualsiasi compito che possa essere svolto dagli esseri umani. La ricerca sui sistemi basati su agenti e l’idea che questi possano svolgere da soli compiti di routine potrebbe essere un passo iniziale.
DeepMind sperimenta da anni con gli agenti, come Sparrow che è stato progettato per evitare risposte sconvenienti o, più recentemente, la Multiagent Society, creata con il MIT, che vede più sistemi di intelligenza artificiale dibattere su un prompt per ottenere un risultato migliore.
L’AGI probabilmente è ancora molto lontana, gli esperti ancora discutono su come definire le questioni concettuali che la riguardano, ma la ricerca sui sistemi basati su agenti come il SoG potrebbe avvicinarsi sempre di più.