C’è molta eccitazione intorno alle potenziali applicazioni dei modelli linguistici di grandi dimensioni (Large Language Model – LLM). Stiamo già vedendo LLM utilizzati in diverse applicazioni, tra cui la composizione di e-mail e la generazione di codice software. Ma man mano che cresce l’interesse per i LLM, crescono anche le preoccupazioni sui loro limiti; ciò potrebbe rendere difficile utilizzarli in diverse applicazioni.
Le aree di ricerca per rendere i LLM più disponibili
Ecco alcune delle aree di ricerca che possono aiutare ad affrontare questi problemi e rendere i LLM disponibili per più domini in futuro.
Recupero delle conoscenze
Uno dei problemi chiave con LLM come ChatGPT e GPT-3 è la loro tendenza ad avere “allucinazioni”. Questi modelli sono addestrati a generare testo plausibile, non fondato su fatti reali. Questo è il motivo per cui possono inventare cose che non sono mai accadute. Dal rilascio di ChatGPT, molti utenti hanno sottolineato come il modello possa essere spinto a generare testo che sembra convincente ma è di fatto errato.
Un metodo che può aiutare a risolvere questo problema è una classe di tecniche note come “recupero della conoscenza”. L’idea alla base del recupero della conoscenza è quella di fornire al LLM un contesto aggiuntivo da una fonte di conoscenza esterna come Wikipedia o una base di conoscenza specifica del dominio.
Google ha introdotto il “pre-training del modello linguistico potenziato” (REALM) nel 2020. Quando un utente fornisce un prompt al modello, un modulo “neural retriever” utilizza il prompt per recuperare documenti rilevanti da un corpus di conoscenze. I documenti e il prompt originale vengono quindi passati al LLM, che genera l’output finale nel contesto dei documenti informativi.
Il lavoro sul recupero delle conoscenze continua a fare progressi. Recentemente, AI21 Labs ha presentato “in-context retrieval augmented language modeling”, una tecnica che semplifica l’implementazione del recupero delle conoscenze in diversi LLM black-box e open source.
È inoltre possibile visualizzare il recupero delle informazioni al lavoro in You.com e la versione di ChatGPT utilizzata in Bing. Dopo aver ricevuto la richiesta, LLM crea prima una query di ricerca; quindi, recupera i documenti e genera il relativo output utilizzando tali origini. Fornisce anche collegamenti alle fonti, il che è molto utile per verificare le informazioni prodotte dal modello. Il recupero delle conoscenze non è una soluzione perfetta e commette ancora errori. Ma sembra essere un passo nella giusta direzione.
Migliori tecniche di progettazione rapida
Nonostante i loro risultati impressionanti, i LLM non capiscono il linguaggio e il mondo, almeno non nel modo in cui lo fanno gli umani. Pertanto, ci saranno sempre casi in cui si comporteranno in modo inaspettato e commetteranno errori che sembrano stupidi agli umani.
Un modo per affrontare questa sfida è la “progettazione rapida“, un insieme di tecniche per la creazione di prompt che guidano gli LLM a produrre output più affidabili. Alcuni metodi di progettazione dei prompt prevedono la creazione di esempi di “apprendimento a pochi colpi”, in cui si antepone il prompt con alcuni esempi simili e l’output desiderato. Il modello utilizza questi esempi come guide per la produzione dell’output. Creando set di dati di pochi esempi, le aziende possono migliorare le prestazioni dei LLM senza la necessità di riqualificarli o perfezionarli.
Un’altra interessante linea di lavoro è il “prompt della catena di pensiero (COT)”, una serie di tecniche di ingegneria rapida che consentono al modello di produrre non solo una risposta, ma anche i passaggi che utilizza per raggiungerla. La richiesta CoT è particolarmente utile per le applicazioni che richiedono ragionamento logico o calcoli dettagliati.
Esistono diversi metodi CoT, inclusa una tecnica a pochi colpi che antepone il prompt con alcuni esempi di soluzioni passo-passo. Un altro metodo, CoT zero-shot, utilizza una frase di attivazione per forzare l’LLM a produrre i passaggi che raggiunge il risultato. E una tecnica più recente chiamata “ragionamento fedele della catena di pensiero” utilizza più passaggi e strumenti per garantire che l’output del LLM rifletta accuratamente i passaggi che utilizza per raggiungere i risultati.
Il ragionamento e la logica sono tra le sfide fondamentali del deep learning che potrebbero richiedere nuove architetture e approcci all’AI. Ma per il momento, migliori tecniche di richiesta possono aiutare a ridurre gli errori logici commessi dagli LLM e aiutare a risolvere i loro errori.
Tecniche di allineamento e messa a punto
L’ottimizzazione dei LLM con set di dati specifici dell’applicazione ne migliorerà la robustezza e le prestazioni in tali domini. La messa a punto è particolarmente utile quando un LLM come GPT-3 viene distribuito in un dominio specializzato in cui un modello generico funzionerebbe male.
Nuove tecniche di messa a punto possono migliorare ulteriormente l’accuratezza dei modelli. Degno di nota è il “reinforcement learning from human feedback” (RLHF), la tecnica utilizzata per addestrare ChatGPT. In RLHF, gli annotatori umani votano sulle risposte di un LLM pre-addestrato. Il loro feedback viene quindi utilizzato per addestrare un sistema di ricompensa che perfeziona ulteriormente il LLM per diventare meglio allineato con le intenzioni degli utenti. RLHF ha funzionato molto bene per ChatGPT ed è la ragione per cui è molto meglio dei suoi predecessori nel seguire le istruzioni per l’utente.
Il prossimo passo per il campo per OpenAI, Microsoft e altri fornitori di piattaforme LLM sarà creare strumenti che consentano alle aziende di creare le proprie pipeline RLHF e personalizzare i modelli per le loro applicazioni.
LLM ottimizzati
Uno dei grandi problemi con le LLM sono i loro costi proibitivi. La formazione e l’esecuzione di un modello delle dimensioni di GPT-3 e ChatGPT può essere così costoso da renderli non disponibili per determinate aziende e applicazioni.
Ci sono diversi sforzi per ridurre i costi dei LLM. Alcuni di questi sono incentrati sulla creazione di hardware più efficiente, come speciali processori AI progettati per LLM.
Un’altra direzione interessante è lo sviluppo di nuovi LLM in grado di eguagliare le prestazioni di modelli più grandi con meno parametri. Un esempio è LLaMA, una famiglia di LLM piccoli e ad alte prestazioni sviluppati da Facebook. I modelli LLaMa sono accessibili ai laboratori di ricerca e alle organizzazioni che non dispongono dell’infrastruttura per eseguire modelli di grandi dimensioni.
Secondo Facebook, la versione da 13 miliardi di parametri di LLaMa supera la versione da 175 miliardi di parametri di GPT-3 sui principali benchmark e la variante da 65 miliardi corrisponde alle prestazioni dei modelli più grandi, incluso il parametro PaLM da 540 miliardi.
I LLM hanno molte sfide da superare, sarà interessante vedere come questi sviluppi contribuiranno a renderli più affidabili e accessibili alla comunità degli sviluppatori e della ricerca.