Il Reinforcement Learning from Human Feedback, RLHF, è una tecnica che prevede il feedback dell’uomo per addestrare i modelli di Intelligenza artificiale. Usata nel Machine learning, consente ai modelli di apprendere in modo efficace e flessibile e, come vedremo, ha delle peculiarità rispetto al Reinforcement learning propriamente detto.
L’RLHF è usato in diversi ambiti che, oltre a includere i modelli linguistici e la generazione di contenuti, estende le proprie maglie al comparto del gaming.
È diffuso nella creazione dei modelli che decretano il successo di aziende come Anthropic, DeepMind, Google e OpenAI.
Cos’è l’RLHF, ovvero il Reinforcement Learning from Human Feedback
Come anticipato, L’RLHF – che in italiano viene tradotto in apprendimento per rinforzo da feedback umano – è una tecnica di Machine learning che consente ai modelli di apprendere (in realtà di auto-apprendere) al fine di essere più performanti e di restituire risultati più confacenti agli obietti.
Le tecniche di apprendimento per rinforzo addestrano software a prendere decisioni che ottimizzano i risultati e, nel caso dell’RLHF, l’intervento dell’uomo coincide con ciò che lo differenzia dall’apprendimento per rinforzo tradizionale proprio perché fa affidamento sul ruolo dell’operatore umano nella funzione di rendimento.
Con l’RLHF – considerato un’evoluzione dell’apprendimento per rinforzo – si addestra un modello tramite i commenti umani e ciò consente di ottenere risultati più adiacenti a quelli attesi, oltre a rendere più efficienti le prestazioni e la sicurezza dei modelli AI.
Breve storia e sviluppo dell’RLHF
Le origini dell’RLHF conducono a OpenAI, organizzazione fondata alla fine del 2015. Negli anni immediatamente seguenti, anche grazie all’apporto di DeepMind, sono stati documentati i primi successi ottenuti, sostenendo che tale approccio poteva addestrare comportamenti complessi con un intervento umano contenuto. I primi test sono stati effettuati con una console Atari e con movimenti robotici.
La scelta di testare l’RLHF con i videogame è stata tanto profetica quanto obbligata, considerando che – ancora oggi sono sia palestra sia terreno di prova per questo tipo di apprendimento con rinforzo.
La prima versione delle metodologie dettagliate usate dall’RLHF risalgono al 2019 e, nel 2022, è stato rilasciato InstructGPT addestrato con l’RLHF, fondamentale per il lancio di ChatGPT.
Metodologia dell’RLHF
I pilastri su cui appoggia il Reinforcement Learning from Human Feedback sono sostanzialmente tre e sono orientati all’ottimizzazione dei modelli di linguaggio. Nello specifico:
- il preaddestramento del modello di linguaggio
- la raccolta dei dati e l’addestramento del modello di ricompensa
- il tuning del modello di linguaggio con rinforzo
Sono tre pilastri che vanno sviscerati un po’ per potere comprendere meglio come svolge il proprio compito l’RLFH.
Addestramento del modello di ricompensa
La metodologia dell’RLFH prevede il pre-addestramento di un modello di linguaggio (per esempio GPT o altri modelli di tipo transformer). Il modello scelto può essere considerato come embrionale e può essere perfezionato con del testo e delle condizioni supplementari, per esempio per facilitare l’uso di un gergo specifico oppure per rafforzare i criteri di eleggibilità dei contenuti, affinché siano innocui o comunque adeguati al contesto.
La domanda che può sorgere spontanea non ha (ancora) una risposta definitiva: non si può stabilire con certezza quale modello si presti meglio come punto di partenza dell’RLHF.
Raccolta del feedback umano
In seguito, è necessario calibrare il modello di ricompensa secondo le preferenze umane. Può essere utile fare un piccolo passo indietro e riprendere brevemente i fondamentali dell’apprendimento per rinforzo.
L’apprendimento per rinforzo è un sottoinsieme del Machine learning in cui un algoritmo (chiamato anche “agente”) impara come comportarsi ricevendo ricompense o punizioni a seconda delle azioni che ha intrapreso o le risposte che ha fornito. L’obiettivo ultimo è che l’agente impari a prendere decisioni più centrate, ossia impari dalle proprie esperienze.
Nel caso del feedback umano, proprio grazie alla classificazione del testo, impara ciò che l’uomo preferisce. Il modello sarà quindi addestrato a usare le scelte operate dall’uomo per apprendere.
Ottimizzazione della politica dell’agente
Il modello di linguaggio ottenuto viene reso sempre più centrato e puntuale mediante l’ottimizzazione delle ricompense: il modello impara a migliorare le risposte sulla scorta del feedback umano.
La politica dell’agente è, di fatto, un modello linguistico che restituisce un risultato a fronte di un prompt usando tutti i token e tutte le possibili sequenze.
Applicazioni del Reinforcement Learning from Human Feedback
Le applicazioni si dipanano in diversi settori e, avendo una vocazione tipicamente legata al mondo del gaming, l’RLHF viene attualmente impiegato nella stessa industria per creare bot altamente competitivi.
Ha una collocazione specifica anche nelle automobili a guida autonoma, soprattutto su strade trafficate che sono ottime palestre per l’addestramento dei modelli.
Gli assistenti vocali ne fanno uso per guadagnare in affidabilità e precisione e, non da ultimo, l’RLHF ha un impatto sulla generazione di testo, immagini e audio offrendo alti livelli di realismo, restituendo risultati in base ai parametri di input come, per esempio, i dettagli dell’immagine forniti dall’utente.
Ciò significa che viene impiegato nelle applicazioni di AI generativa e nei Modelli linguistici di grandi dimensioni (LLM, Large language model).
RLHF nel Natural language processing
Poiché è in grado di rendere i modelli di linguaggio più evoluti e quindi più flessibili e allineati alle esigenze dell’uomo, trova applicazione nel contesto del Natural language processing (NLP). Le peculiarità che lo contraddistinguono sono manna per:
- gli assistenti (e i Chatbot in generale), la necessità che questi si adattino all’uso che ne fa l’uomo è una loro caratteristica distintiva e fondamentale
- il riassunto di testi, offrendo all’utente risposte sempre più performanti nel sintetizzare il contenuto di documenti
- l’ottimizzazione dei modelli di linguaggio, campo nel quale l’RLHF trova ampio spazio proprio in virtù del feedback umano che consente di centrare meglio gli obiettivi prefissati
In breve, l’RLHF svolge un ruolo primario nel migliorare le prestazioni dei modelli di linguaggio e, di conseguenza, favorisce l’interazione uomo-macchina.
RLHF nei videogiochi
Il rapporto tra l’RLHF e il mondo dei videogiochi, così come l’apporto che ne consegue, è persino difficile da misurare.
L’uso del RLHF per lo sviluppo di bot capaci di prestazioni persino superiori a quelle del giocatore umano fa da sfondo al successo dei videogame. OpenAI e DeepMind, per citare due colossi, hanno utilizzato il gaming allorquando, nei rispettivi laboratori, stavano facendo muovere i primi passi all’RLHF e appare naturale che il rapporto con il mondo video-ludico sia rimasto saldo nel tempo.
Ancora prima, siamo nel 2008, W. Bradley Knox and Peter Stone del Department of Computer Sciences (Università del Texas) avevano ipotizzato ciò che oggi viene chiamato RLHF usando Tetris come palestra.
Altre applicazioni dell’RLHF
Le capacità di risoluzione di problemi matematici (anche complessi) hanno una declinazione d’uso in diversi comparti, tra i quali l’istruzione, l’intrattenimento, la finanza e persino la sanità.
Non di meno, nel campo della robotica si sta creando un legame stabile con l’RLHF proprio in virtù del fatto che – e siamo davanti a realtà fattuali – può insegnare ai robot come interagire con l’essere umano.
Non va dimenticato inoltre che l’RLHF è tecnica impiegata nello sviluppo delle AI generative, capitanate per diffusione, ormai quasi in modo onomatopeico, da ChatGPT. Le AI generative sono a loro volta impiegate in molti ambiti come, per esempio, la creazione di Chatbot dediti all’assistenza dei clienti o all’assolvimento di compiti ripetitivi, oppure per dare supporto a sviluppatori e programmatori.
ChatGPT e InstructGPT di OpenAI
Stabilità che l’RLHF usa un modello linguistico già pre-addestrato, OpenAI ha impiegato una versione i GPT-3 più contenuta per dare alla luce InstructGPT, il primo modello RLHF.
Mentre ChatGPT è progettato per generare conversazioni, InstructGPT è nato per seguire con maggiore precisione le istruzioni degli utenti (nello specifico meglio di quanto fosse in grado di fare GPT-3).
Un procedimento lungo che è stato sottoposto a diversi test che OpenAI ha ampiamente documentato sul proprio sito web dimostrando quanto, con il variare dei parametri e delle condizioni, InstructGPT abbia contribuito all’aumento delle potenzialità dei modelli GPT.
Sparrow di DeepMind
Sparrow è un Chatbot uscito dai laboratori di DeepMind e progettato per dare risposte precise alle domande che gli vengono sottoposte. L’obiettivo è quello di aumentare la qualità delle interazioni con gli utenti, riducendo quindi il rischio che i risultati restituiti siano imprecisi, fuorvianti o viziati da bias.
Addestrato sul modello linguistico Chinchilla, dà seguito ai quesiti consultando una ricerca sul web e l’algoritmo apprende a seconda di come le persone valutano le risposte.
Ulteriori approfondimenti
Ecco un elenco degli articoli più diffusi su RLHF fino ad oggi.
- TAMER: Training an Agent Manually via Evaluative Reinforcement (Knox and Stone 2008)
- Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017)
- Deep Reinforcement Learning from Human Preferences (Christiano et al. 2017)
- Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces (Warnell et al. 2018)
- Un’indagine sui metodi di apprendimento per rinforzo basati sulle preferenze (Wirth et al. 2017)