Quasi in sordina, nonostante ne avesse avuto l’occasione durante l’evento Meta Connect, Meta Platforms ha pubblicato un articolo sito web non peer reviewed arXiv.org in cui presenta Llama 2 Long, un nuovo modello di intelligenza artificiale basato su Llama 2 open source di Meta, che è stato sottoposto a “un continuo preaddestramento da Llama 2 con sequenze di addestramento più lunghe e su un set di dati in cui i testi lunghi sono sovracampionati”, secondo i ricercatori-autori del documento “Effective Long-Context Scaling of Foundation Models” del 27 settembre 2023.
Come risultato, il nuovo modello di intelligenza artificiale allungata di Meta supera alcuni dei principali concorrenti nella generazione di risposte a richieste dell’utente lunghe (con un numero maggiore di caratteri), tra cui GPT-3.5 Turbo di OpenAI con una finestra di contesto di 16.000 caratteri e Claude 2 con una finestra di contesto di 100.000 caratteri.
Come è nato LLama 2 Long
I ricercatori di Meta hanno preso l’originale Llama 2 disponibile nelle sue diverse dimensioni dei parametri di addestramento – i valori dei dati e delle informazioni che l’algoritmo può modificare da solo durante l’apprendimento, che nel caso di Llama 2 sono disponibili in 7 miliardi, 13 miliardi, 34 miliardi e 70 miliardi di varianti – e hanno incluso fonti di dati testuali più lunghe rispetto al dataset di addestramento originale di Llama 2. Per l’esattezza, altri 400 miliardi di token.
Poi, i ricercatori hanno mantenuto invariata l’architettura del Llama 2 originale, apportando solo una “modifica necessaria alla codifica posizionale che è fondamentale perché il modello possa assistere più a lungo”.
La modifica riguarda la codifica RoPE (Rotary Positional Embedding), un metodo di programmazione del modello di trasformatore alla base di LLM come Llama 2 (e LLama 2 Long), che essenzialmente mappa gli embeddings dei token (i numeri usati per rappresentare parole, concetti e idee) su un grafico 3D che mostra le loro posizioni rispetto ad altri token, anche se ruotati. Questo permette al modello di produrre risposte accurate e utili, con meno informazioni (e quindi meno memoria di calcolo) rispetto ad altri approcci.
I ricercatori di Meta hanno “diminuito l’angolo di rotazione” della sua codifica RoPE da Llama 2 a Llama 2 Long, il che ha permesso di garantire che i “token più distanti”, quelli che si verificano più raramente o con meno relazioni con altre informazioni, fossero comunque inclusi nella base di conoscenza del modello.
Utilizzando il reinforcement learning from human feedback (RLHF), un comune metodo di addestramento dei modelli di AI in cui l’AI viene premiata per le risposte corrette con la supervisione umana per controllarle, e i dati sintetici generati dalla stessa chat di Llama 2, i ricercatori sono stati in grado di migliorare le sue prestazioni in compiti comuni di LLM, tra cui la codifica, la matematica, la comprensione del linguaggio, il ragionamento di senso comune e la risposta alle domande poste da un utente umano.
Grafico dei risultati di Llama 2 Long tratto dal documento “Effective Long-Context Scaling of Foundation Models“.
Conclusioni
Con risultati così impressionanti rispetto sia a Llama 2 normale che a Claude 2 di Anthropic e GPT-3.5 Turbo di OpenAI, non c’è da stupirsi che la comunità dell’AI open-source su Reddit, Twitter e Hacker News abbia espresso la propria ammirazione e il proprio entusiasmo per Llama 2 dopo la pubblicazione del documento: è una grande conferma dell’approccio “open source” di Meta verso l’AI generativa e indica che l’open source può competere con i modelli closed source e “pay to play” offerti da startup ben finanziate.