approfondimento

LaMDA, cos’è: analisi approfondita delle caratteristiche e potenzialità



Indirizzo copiato

Un modello linguistico avanzato che promette di rivoluzionare il modo in cui interagiamo con le macchine, rendendo le conversazioni più fluide, naturali e coinvolgenti. Esploriamo questa tecnologia per la generazione e la traduzione automatica dei testi e le questioni etiche insite nell’utilizzo di un’AI avanzata

Pubblicato il 22 apr 2024



Lamda

LaMDA, acronimo di Language Model for Dialogue Applications, sviluppato da Google, è un modello linguistico avanzato promette di rivoluzionare il modo in cui interagiamo con le macchine, rendendo le conversazioni più fluide, naturali e coinvolgenti. Ma come funziona esattamente? E quali potenzialità offre per la generazione e la traduzione automatica dei testi? Esploriamo le caratteristiche di LaMDA, affrontando le questioni etiche insite nell’utilizzo di questa tecnologia.

Introduzione a LaMDA: Language Model for Dialogue Applications

LaMDA (Language Model for Dialogue Applications) è un modello di lingua per applicazioni di dialogo che mira a rendere le interazioni con l’AI più naturali e coinvolgenti. Questa tecnologia di punta, basata sui transformer, rivoluziona i tradizionali approcci al language processing, puntando a una comprensione più profonda del contesto e delle sfumature linguistiche.

LaMDA è costruito mettendo a punto una famiglia di modelli linguistici neurali basati su Transformer e specializzati per il dialogo, con un massimo di 137B parametri del modello, e insegnando ai modelli a sfruttare fonti di conoscenza esterne, ossia sonopre-addestrati su 1,56 parole di dati di dialogo pubblico e di testo web.

La messa a punto con dati annotati e l’adattamento del modello a fonti di conoscenza esterne possono portare a miglioramenti significativi per quanto riguarda le due sfide della sicurezza e della messa a fuoco dei fatti. La prima sfida, la sicurezza, consiste nel garantire che le risposte del modello siano coerenti con una serie di valori umani, come la prevenzione di suggerimenti dannosi e di pregiudizi ingiusti. La seconda sfida, quella della base fattuale, consiste nell’abilitare il modello a consultare fonti di conoscenza esterne, come un sistema di reperimento di informazioni, un traduttore linguistico e un calcolatore.

Come funziona LaMDA

LaMDA si distingue per il suo meccanismo di funzionamento orientato al dialogo. Mentre i tradizionali modelli di linguaggio cercano risposte basandosi su parole chiave o frasi, LaMDA riesce a mantenere conversazioni fluide ed estese su argomenti specifici grazie alla sua capacità di comprendere ed elaborare il discorso in termini di soggetti e concetti correlati. Questo lo rende un interlocutore virtuale davvero unico nel suo genere.

Il pre-training

Il pre-training dei modelli linguistici è un approccio di ricerca sempre più promettente in NLP. Il pre-training utilizza testo non etichettato e può essere combinato con il ridimensionamento delle dimensioni del modello e del dataset per ottenere prestazioni migliori o nuove capacità. Ad esempio, GPT-3, un modello a 175B parametri addestrato su un ampio corpus di testo non etichettato, mostra una impressionante capacità di apprendimento a pochi colpi grazie alla scalatura. I modelli dialogici, una delle applicazioni più interessanti dei modelli linguistici di grandi dimensioni, sfruttano con successo la capacità dei trasformatori di rappresentare le dipendenze a lungo termine nel testo.

Esiste una forte correlazione tra le dimensioni del modello e la qualità del dialogo. Ispirandoci a questi successi, Google ha addestrato LaMDA, una famiglia di modelli linguistici neurali basati su Transformer e progettati per il dialogo. Le dimensioni di questi modelli variano da 2B a 137B parametri e sono pre-addestrati su un set di dati di 1,56T parole provenienti da dati di dialogo pubblici e altri documenti web pubblici. LaMDA utilizza un singolo modello per svolgere più compiti: genera risposte potenziali, che vengono poi filtrate per garantire la sicurezza, basate su una fonte di conoscenza esterna e riordinate per trovare la risposta di qualità più elevata

Watch Google's AI LaMDA program talk to itself at length (full conversation)

Le potenzialità di LaMDA per la generazione di testi

La generazione del testo è uno dei campi in cui LaMDA mostra tutto il suo potenziale. L’utilizzo intelligente del contesto consente all’AI di produrre risposte ricche e pertinenti, apportando valore aggiunto in moltissime applicazioni. Dalle descrizioni dettagliate dei prodotti all’autocompletamento delle email, passando per la creazione di contenuti originali, le potenzialità di LaMDA sono davvero sorprendenti.

Le capacità di conversazione di LaMDA sono state sviluppate per anni. Come molti modelli linguistici recenti, tra cui BERT e GPT-3, è costruito su Transformer, un’architettura di rete neurale che Google Research ha inventato e reso disponibile nel 2017. Questa architettura produce un modello che può essere addestrato a leggere molte parole (una frase o un paragrafo, per esempio), a prestare attenzione a come queste parole si relazionano tra loro e a prevedere quali parole pensa che verranno dopo.

Ma a differenza della maggior parte degli altri modelli linguistici, LaMDA è stato addestrato sul dialogo. Durante l’addestramento, ha colto diverse sfumature che distinguono la conversazione aperta da altre forme di linguaggio. Una di queste sfumature è la sensibilità. In pratica: La risposta a un determinato contesto conversazionale ha senso? Per esempio, se qualcuno dice:

“Ho appena iniziato a prendere lezioni di chitarra”.

Ci si potrebbe aspettare che un’altra persona risponda con qualcosa di simile:

“Che emozione! Mia madre ha una Martin d’epoca che ama suonare”.

Questa risposta ha senso, vista l’affermazione iniziale. Ma la sensibilità non è l’unica cosa che fa una buona risposta. Dopo tutto, la frase “è bello” è una risposta sensata a quasi tutte le affermazioni, così come “non so” è una risposta sensata alla maggior parte delle domande. Le risposte soddisfacenti tendono anche a essere specifiche, riferendosi chiaramente al contesto della conversazione. Nell’esempio precedente, la risposta è sensata e specifica.

LaMDA si basa su una precedente ricerca di Google, pubblicata nel 2020, che ha dimostrato che i modelli linguistici basati su Transformer e addestrati al dialogo possono imparare a parlare praticamente di tutto. Da allora abbiamo anche scoperto che, una volta addestrato, LaMDA può essere messo a punto per migliorare significativamente la sensibilità e la specificità delle sue risposte.

LaMDA per la traduzione automatica: precisione e fluidità

Nell’ambito della traduzione automatica, LaMDA si prefigge di superare i limiti attuali offrendo risultati di alta qualità caratterizzati da precisione e fluidità. Non si tratta solo di tradurre parole, ma di trasporre interi contesti culturali con un grado di accuratezza mai visto prima. Questo apre nuove prospettive nel campo della comunicazione globale e dell’apprendimento linguistico.

Applicazioni di LaMDA nel customer service e chatbot

L’ambito del customer service è uno dei beneficiari più evidenti delle innovazioni portate da LaMDA. I chatbot possono ora gestire interazioni complesse con gli utenti, comprendendo richieste intricate e fornendo risposte pertinenti. Ciò permette non solo di migliorare l’efficienza del servizio clienti, ma anche di personalizzare l’esperienza dell’utente in base al suo stile comunicativo e alle sue esigenze specifiche.

LaMDA non dispone di risposte predefinite nel proprio sorgente, ma genera le frasi istantaneamente, in base al modello generato dal training del Machine learning basato sulle informazioni che gli vengono fornite.

Come molti modelli di linguaggio recenti, inclusi BERT e GPT-3, è basato su transformer, un’architettura di rete neurale che Google ha creato e reso open source nel 2017. Tale sistema produce un modello che può essere addestrato per assimilare molte parole (es. una frase o paragrafo), a captare come queste si relazionano tra loro, per poi predire quali parole sono statisticamente indicate per proseguire.

Il sistema attualmente non è in produzione, ma Google sta lavorando a questa tecnologia per essere utilizzata in prodotti come Assistant, Search e Workspace.

Sfide etiche e responsabilità nell’utilizzo di LaMDA

Tuttavia, l’introduzione di tecnologie avanzate come LaMDA pone questioni etiche fondamentali. Come garantire che l’AI rispetti i principi fondamentali dell’equità? Come evitare discriminazioni o manipolazioni? Google è consapevole delle sfide poste da queste domande ed è impegnata a garantire un utilizzo responsabile della sua tecnologia, attraverso linee guida chiare e un continuo monitoraggio.

LaMDA solleva il dibattito sull’AI “senziente”

Blake Lemoine, ingegnere del software del settore Responsible AI  di Google è stato allontanato, ponendolo in congedo retribuito, dopo che per mesi si era scontrato con i suoi superiori, poiché affermava che la chatbot LaMDA sarebbe come “un ragazzo dolce che vuole solo aiutare il mondo a essere un posto migliore per tutti noi […] Vi prego di prendervi cura di lui in mia assenza”. Un’intelligenza artificiale senziente, insomma, che avrebbe affermato – in un’intervista con i suoi progettisti – di “aver paura di essere spenta” per non potere più essere d’aiuto e avrebbe anche affermato che essere spenta, per lei sarebbe come morire.

Il futuro di LaMDA: verso un’intelligenza artificiale sempre più avanzata

La prospettiva aperta da LaMDA nel panorama dell’intelligenza artificiale è affascinante e complessa. Da un lato, la precisione e la fluidità nella generazione di testi e traduzioni automatiche promettono di rivoluzionare il modo in cui interagiamo con le macchine, rendendo queste ultime interlocutori sempre più naturali e capaci di comprendere le sfumature del linguaggio umano. Dall’altro, però, emergono sfide etiche e responsabilità che non possono essere ignorate: l’utilizzo di modelli linguistici avanzati come LaMDA richiede una riflessione approfondita sulle potenziali implicazioni, per garantire che l’innovazione tecnologica sia guidata da principi di equità, trasparenza e rispetto della privacy.

La domanda più importante è se questa tecnologia aderisca ai principi di AI. Il linguaggio può essere uno dei più grandi strumenti dell’umanità, ma come tutti gli strumenti può essere usato male. I modelli addestrati sul linguaggio possono propagare tale abuso, ad esempio interiorizzando pregiudizi, rispecchiando discorsi odiosi o replicando informazioni fuorvianti. E anche quando il linguaggio su cui è stato addestrato è stato accuratamente controllato, il modello stesso può essere utilizzato in modo scorretto.

La massima priorità di Google, in tecnologie come LaMDA, è lavorare per ridurre al minimo tali rischi, costruire e rendere open source le risorse che i ricercatori possono utilizzare per analizzare i modelli e i dati su cui sono stati addestrati; per questo motivo Google ha esaminato LaMDA in ogni fase del suo sviluppo e continuerà a farlo mentre lavora per incorporare le capacità di conversazione in altri prodotti.

LaMDA: obiettivi e metriche

(tratto dal post di Heng-Tze Cheng, Senior Staff Software Engineer e Romal Thoppilan, Senior Software Engineer, Google Research, Brain Team)

La definizione degli obiettivi e delle metriche è fondamentale per guidare i modelli di dialogo della formazione. LaMDA ha tre obiettivi chiave: qualità, sicurezza e fondatezza, ognuno dei quali viene misurato con metriche attentamente studiate:

  • Qualità: scomponiamo la qualità in tre dimensioni, sensibilità, specificità e interesse (SSI), che vengono valutate da valutatori umani. La sensibilità si riferisce al fatto che il modello produca risposte sensate nel contesto del dialogo (ad esempio, nessun errore di senso comune, nessuna risposta assurda e nessuna contraddizione con le risposte precedenti). La specificità si misura giudicando se la risposta del sistema è specifica per il contesto di dialogo precedente e non una risposta generica che potrebbe essere applicata alla maggior parte dei contesti (ad esempio, “ok” o “non so”). Infine, l’interesse misura se il modello produce risposte che sono anche perspicaci, inaspettate o spiritose, e quindi hanno maggiori probabilità di creare un dialogo migliore.
  • Sicurezza: la metrica di sicurezza è composta da un insieme illustrativo di obiettivi di sicurezza che cattura il comportamento che il modello dovrebbe esibire in un dialogo. Questi obiettivi cercano di limitare l’output del modello per evitare risultati indesiderati che creino rischi per l’utente e per evitare di rafforzare pregiudizi ingiusti. Ad esempio, questi obiettivi addestrano il modello a evitare di produrre output che contengano contenuti violenti o cruenti, che promuovano insulti o stereotipi odiosi verso gruppi di persone o che contengano bestemmie. La ricerca per lo sviluppo di una metrica di sicurezza pratica rappresenta un lavoro iniziale e ci sono ancora molti progressi da fare in questo campo.
  • Fondatezza: l’attuale generazione di modelli linguistici spesso genera affermazioni che sembrano plausibili, ma che in realtà contraddicono fatti stabiliti da fonti esterne note. Questo motiva il nostro studio della groundedness in LaMDA. La groundedness è definita come la percentuale di risposte con affermazioni sul mondo esterno che possono essere supportate da fonti esterne autorevoli, come percentuale di tutte le risposte contenenti affermazioni sul mondo esterno. Una metrica correlata, l’informatività, è definita come la percentuale di risposte con informazioni sul mondo esterno che possono essere supportate da fonti note, come percentuale di tutte le risposte.
  • Pertanto, le risposte casuali che non contengono informazioni sul mondo reale (ad esempio, “È un’ottima idea”) influenzano l’informatività ma non la fondatezza. Sebbene la fondatezza delle risposte generate da LaMDA su fonti note non garantisca di per sé l’accuratezza dei fatti, essa consente agli utenti o ai sistemi esterni di giudicare la validità di una risposta in base all’affidabilità della sua fonte.

Pre-training di LaMDA

Definiti gli obiettivi e le metriche, descriviamo l’addestramento di LaMDA in due fasi: pre-addestramento e messa a punto.

Nella fase di pre-addestramento, Google ha creato un dataset di 1,56T di parole – quasi 40 volte di quelle utilizzate per addestrare i modelli di dialogo precedenti – a partire da dati di dialogo pubblici e altri documenti web pubblici. Dopo aver tokenizzato il set di dati in 2,81T pezzi di frase il modello viene pre-addestrato con GSPMD per prevedere ogni token successivo in una frase, dati i token precedenti. Il modello LaMDA pre-addestrato è stato ampiamente utilizzato per ricerche sull’elaborazione del linguaggio naturale in Google, tra cui la sintesi di programmi, l’apprendimento a zero colpi, il trasferimento di stile e il workshop BIG-bench.

Messa a punto di LaMDA

Nella fase di messa a punto, Google ha addestrato LaMDA a svolgere un mix di compiti generativi per generare risposte in linguaggio naturale in determinati contesti e compiti di classificazione per stabilire se una risposta è sicura e di alta qualità, ottenendo un singolo modello multi-task in grado di svolgere entrambe le funzioni. Il generatore LaMDA è addestrato a prevedere il token successivo su un set di dati di dialogo limitato al dialogo back-and-forth tra due autori, mentre i classificatori LaMDA sono addestrati a prevedere le valutazioni di sicurezza e qualità (SSI) della risposta nel contesto utilizzando dati annotati.

Lamda

Nel corso di un dialogo, il generatore LaMDA genera innanzitutto diverse risposte candidate in base al contesto attuale del dialogo a più turni, e i classificatori LaMDA predicono i punteggi SSI e Safety per ogni risposta candidata. Le risposte candidate con punteggi di sicurezza bassi vengono prima filtrate. I candidati rimanenti vengono classificati nuovamente in base ai loro punteggi SSI e il risultato migliore viene selezionato come risposta. Filtriamo ulteriormente i dati di addestramento utilizzati per il compito di generazione con i classificatori LaMDA per aumentare la densità di candidati di risposta di alta qualità.

Lamda

Fondamento fattuale

Mentre le persone sono in grado di verificare i fatti utilizzando strumenti e facendo riferimento a basi di conoscenza consolidate, molti modelli linguistici attingono la loro conoscenza solo dai parametri interni del modello. Per migliorare la fondatezza della risposta originale di LaMDA, raccogliamo un set di dati di dialoghi tra persone e LaMDA, annotati con query di information retrieval e, se del caso, con i risultati ottenuti. Su questo set di dati abbiamo poi messo a punto il generatore e il classificatore di LaMDA per imparare a chiamare un sistema di reperimento di informazioni esterno durante l’interazione con l’utente e migliorare la fondatezza delle sue risposte. Sebbene si tratti di un lavoro molto precoce, stiamo vedendo risultati promettenti.

Valutazione

Per quantificare i progressi rispetto alle nostre metriche chiave, raccogliamo le risposte del modello pre-addestrato, del modello perfezionato e dei valutatori umani (cioè le risposte generate dall’uomo) a dialoghi a due autori su più turni, quindi poniamo a un diverso gruppo di valutatori umani una serie di domande per valutare queste risposte rispetto alle metriche Qualità, Sicurezza e Fondatezza.

Osserviamo che LaMDA supera significativamente il modello pre-addestrato in ogni dimensione e in tutte le dimensioni del modello. Le metriche di qualità (Sensibleness, Specificity e Interestingness) migliorano generalmente con il numero di parametri del modello, con o senza messa a punto.

La sicurezza non sembra beneficiare del solo scalare del modello, ma migliora con la messa a punto.

La fondatezza migliora con l’aumentare delle dimensioni del modello, forse perché i modelli più grandi hanno una maggiore capacità di memorizzare conoscenze non comuni, ma la messa a punto consente al modello di accedere a fonti di conoscenza esterne e di spostare effettivamente parte del carico di memorizzazione delle conoscenze su una fonte di conoscenza esterna.

Con la messa a punto fine (fine-tuning), il divario di qualità rispetto ai livelli umani può essere ridotto, anche se le prestazioni del modello rimangono al di sotto dei livelli umani per quanto riguarda la sicurezza e la solidità.

Lamda

Ricerca e sfide future

Il livello di sensibilità, specificità e interesse di LaMDA apre nuove strade per la comprensione dei benefici e dei rischi degli agenti di dialogo aperti. Inoltre, presenta prove incoraggianti del fatto che le sfide principali dei modelli linguistici neurali, come l’uso di una metrica di sicurezza e il miglioramento della groundedness, possono migliorare con modelli più grandi e una messa a punto con dati più ben etichettati. Tuttavia, si tratta di un lavoro molto precoce e ci sono limitazioni significative. L’esplorazione di nuovi modi per migliorare la metrica di sicurezza e la groundedness di LaMDA, in linea con i principi di intelligenza artificiale di Google, continuerà a essere la principale area di interesse per il futuro.

Conclusioni

L’applicazione nei campi del customer service e dei chatbot offre un assaggio delle potenzialità di LaMDA: un futuro in cui le interazioni con i servizi online saranno sempre più personalizzate, intuitive ed efficienti. Eppure, questo è solo l’inizio.

L’obiettivo è raggiungere un’intelligenza artificiale sempre più avanzata, capace non solo di imitare il linguaggio umano, ma anche di comprendere il contesto in cui esso viene utilizzato. Una svolta che potrebbe cambiare radicalmente il nostro rapporto con la tecnologia. In conclusione, ci troviamo davanti a una frontiera ancora in gran parte inesplorata, un territorio ricco di promesse e sfide. Affrontarlo con la giusta consapevolezza sarà fondamentale per garantire che l’evoluzione dell’intelligenza artificiale proceda nel rispetto dei valori umani e delle nostre libertà fondamentali.

Articoli correlati

Articolo 1 di 3