tecnologia

nGPT: cos’è il Trasformatore normalizzato con apprendimento della rappresentazione sull’ipersfera



Indirizzo copiato

Un gruppo di ricercatori di Nvidia ne ha pubblicato lo studio su Arxiv il 1° ottobre 2024. Gli esperimenti dimostrano che nGPT apprende molto più velocemente rispetto a GPT, riducendo il numero di fasi di addestramento necessarie per ottenere la stessa precisione di un fattore compreso tra 4 e 20, a seconda della lunghezza della sequenza

Pubblicato il 24 ott 2024



nGPT

nGPT, è la nuova sigla che si affaccia nel panorama dell’intelligenza artificiale attuale. Un gruppo di autori, ricercatori che lavorano per Nvidia – Ilya Loshchilov, Cheng-Ping Hsieh, Simeng Sun e Boris Ginsburg – hanno pubblicato il 1° ottobre 2024 su Arxiv lo studio di una nuova architettura di rete neurale: il Trasformatore normalizzato (nGPT) con apprendimento della rappresentazione sull’ipersfera.

nGPT, che cos’è

La ricerca continua a investigare modi per ottimizzare queste architetture, aumentandone l’efficienza e diminuendo i costi computazionali. Il modello nGPT (Normalized Transformer) si colloca in questo ambito, introducendo una serie di innovazioni che lo rendono più efficiente rispetto ai Transformer tradizionali.

nGPT: una nuova architettura basata sulla normalizzazione


Il fulcro del modello nGPT è la rappresentazione su ipersfera: tutte le embedding e le matrici utilizzate nelle varie operazioni del modello sono normalizzate a una norma unitaria, posizionandosi su una superficie ipersferica. Questo implica che tutte le operazioni di moltiplicazione matrice-vettore possono essere viste come prodotti scalari che rappresentano similarità coseni limitate tra -1 e 1. La normalizzazione rende anche il modello più robusto durante l’addestramento, riducendo il rischio che alcune embedding assumano valori estremi che potrebbero causare instabilità. Inoltre, la normalizzazione semplifica il processo di apprendimento, rendendo i gradienti meno soggetti a esplosioni o vanificazioni.

Questa normalizzazione su ipersfera porta a una maggiore stabilità durante l’addestramento e a una miglior separabilità dello spazio delle embedding, rendendo il modello più efficiente nei compiti downstream, cioè quelli eseguiti dopo l’addestramento. Studi recenti hanno dimostrato che l’apprendimento delle rappresentazioni sull’ipersfera è associato a una migliore stabilità dell’addestramento, una maggiore capacità di generalizzazione e una rappresentazione più chiara delle relazioni tra concetti diversi. Ciò significa che il modello non solo apprende più rapidamente, ma è anche più preciso nell’effettuare inferenze su nuovi dati.

In nGPT, tutti i vettori che formano gli embeddings, le MLP, le matrici di attenzione e gli stati nascosti sono normalizzati all’unità. Il flusso di token in ingresso viaggia sulla superficie di un’ipersfera, con ogni strato che contribuisce a uno spostamento verso le previsioni in uscita. Questi spostamenti sono definiti dai blocchi MLP, le cui componenti vettoriali risiedono anch’esse sulla stessa ipersfera.

Gli esperimenti dimostrano che nGPT apprende molto più velocemente, riducendo il numero di fasi di addestramento necessarie per ottenere la stessa precisione di un fattore compreso tra 4 e 20, a seconda della lunghezza della sequenza.

nGPT in breve

nGPT di Nvidia è una nuova versione di GPT che forza i vettori a giacere su un’ipersfera, portando ad alcuni miglioramenti chiave:

Velocità: da 4 a 20 volte più veloce di GPT, raggiungendo le stesse prestazioni in molti meno step di addestramento.

• Semplicità: non c’è bisogno di decadimento del peso o di regolazioni speciali del tasso di apprendimento, rendendo più facile l’addestramento.

Sequenze più lunghe: nGPT gestisce sequenze di testo più lunghe rispetto a quelle su cui è stato addestrato.

Vincolando i vettori a un’ipersfera:

• Le moltiplicazioni di matrici agiscono come misurazione delle similarità vettoriali.

• Il Transformer funziona come un ottimizzatore per l’ipersfera.

L’analisi di nGPT mostra:

• I blocchi di attenzione e MLP apportano regolazioni più piccole agli stati nascosti rispetto ai Transformer tradizionali.

• I fattori di scala per la normalizzazione rimangono stabili tra gli strati.

nGPT sembra un approccio promettente per modelli linguistici più efficienti ed efficaci in futuro.

nGPT, cosa c’è alla base

L’architettura Transformer (Vaswani et al., 2017) è alla base della maggior parte dei modelli linguistici moderni. Sono state proposte numerose modifiche a questa architettura per migliorare la stabilità dell’addestramento, i costi di inferenza, la lunghezza del contesto, la robustezza, ecc. È stato notato che l’applicazione di varie tecniche di normalizzazione è vantaggiosa (Salimans & Kingma, 2016), il che ha portato a sperimentare l’aggiunta di livelli di normalizzazione come LayerNorm e RMSNorm in quasi tutte le posizioni possibili all’interno della rete (Xiong et al., 2020).

Un altro approccio alla normalizzazione del modello consiste nel controllare la norma dei pesi utilizzando il decadimento dei pesi (Loshchilov & Hutter, 2019). Studi recenti (Andriushchenko et al., 2023) suggeriscono di rivalutare il ruolo del decadimento dei pesi e di esaminare più da vicino le rotazioni piuttosto che concentrarsi esclusivamente sulle norme vettoriali (Kodryan et al., 2022; Kosson et al., 2023). Franke et al. (2023) hanno suggerito di imporre un limite superiore alla norma L2 dei gruppi di parametri. È sempre più evidente che l’apprendimento della rappresentazione sull’ipersfera è associato a un addestramento più stabile, a una maggiore separabilità dello spazio di incorporazione e a migliori prestazioni nei compiti a valle (Wang & Isola, 2020).

Studi recenti suggeriscono inoltre che i trasformatori eseguono implicitamente la discesa del gradiente come meta-ottimizzatori (Von Oswald et al., 2023; Dai et al., 2022).

Il gruppo di scienziati di Nvidia propone di unificare le varie scoperte e osservazioni fatte nel campo sotto una nuova prospettiva di trasformatore normalizzato.

I loro contributi chiave sono i seguenti:

  • Ottimizzazione dei parametri di rete sull’ipersfera – essi propongono di normalizzare tutti i vettori che formano le dimensioni di incorporazione delle matrici di rete in modo che giacciano su un’ipersfera a norma unitaria. Questo permette di vedere le moltiplicazioni matrice-vettore come prodotti di punti che rappresentano somiglianze di coseno delimitate in [-1,1]. La normalizzazione rende superfluo il decadimento dei pesi.
  • Il Trasformatore normalizzato come ottimizzatore a metrica variabile sull’ipersfera – Il Trasformatore normalizzato stesso esegue un’ottimizzazione in più fasi (due fasi per strato) su un’ipersfera, dove ogni fase dell’attenzione e degli aggiornamenti dell’MLP è controllata dai tassi di apprendimento degli autogeni, gli elementi diagonali di una matrice a metrica variabile apprendibile. Per ogni token ti nella sequenza di input, il percorso di ottimizzazione del trasformatore normalizzato inizia in un punto dell’ipersfera corrispondente al suo vettore di incorporazione di input e si sposta in un punto dell’ipersfera che predice al meglio il vettore di incorporazione del token successivo ti+1.

Convergenza più rapida – i ricercatori dimostrano che il trasformatore normalizzato riduce il numero di passi di addestramento necessari per ottenere la stessa precisione di un fattore compreso tra 4 e 20.

L’evoluzione del trasformatore: da GPT a nGPT

Nel loro documento, i ricercatori illustrano il trasformatore di base e le modifiche necessarie per ottenere la sua versione normalizzata, con la sola autoattenzione. L’estensione a encoder-decoder e cross-attention è semplice.

Esperimenti

Gli scienziati di Nvidia hanno addestrato sia il trasformatore di base (GPT) sia il trasformatore normalizzato (nGPT) sul dataset OpenWebText (Gokaslan & Cohen, 2019) e li hanno valutati su una serie di compiti standard a valle. Essi hanno sperimentato i modelli contenenti 0,5B e 1B parametri, inclusi gli embeddings. Sia per GPT che per nGPT, hanno riportato i risultati utilizzando le migliori impostazioni del tasso di apprendimento iniziale.

Perdita di validazione durante l’addestramento di 1B GPT e nGPT con una lunghezza di 4k contesti.
La Figura presenta la perdita di validazione durante l’addestramento dei modelli GPT e nGPT con 1 miliardo di parametri e una lunghezza del campione di 4k token. Dopo 20k iterazioni, nGPT raggiunge la stessa perdita di validazione che GPT raggiunge solo dopo 200k iterazioni (circa 400 miliardi di token), dimostrando una velocità 10 volte superiore in termini di iterazioni e token utilizzati.

Accelerazione dell’addestramento

Perdita di convalida finale (asse y) per le esercitazioni con diversi budget di calcolo in token (asse x). L’addestramento di modelli nGPT da 0,5B e 1B è circa 4 volte, 10 volte e 20 volte più veloce (in termini di token) su lunghezze di contesto di 1k, 4k e 8k, rispettivamente.
La Figura illustra come il divario di prestazioni tra nGPT e GPT si distribuisce su tre assi: budget totale di token, lunghezza del contesto e dimensione della rete. L’addestramento dei modelli nGPT 0,5B e 1B è circa 4 volte, 10 volte e 20 volte più veloce con lunghezze di contesto di 1k, 4k e 8k token, rispettivamente.

La figura sotto mostra un andamento simile per tutti i compiti a valle, confermando che l’accelerazione non si riflette solo sulla perplessità, ma anche sulle prestazioni del compito. Si osserva una certa saturazione per le esecuzioni più lunghe di nGPT, suggerendo che la capacità del modello è quasi raggiunta per questo numero di parametri addestrabili.

Modelli addestrati con una lunghezza di contesto di 4k. Prestazioni finali (asse delle ordinate) su una serie di compiti a valle e il loro valore medio (in basso a destra) per diversi budget di calcolo in token (asse delle ascisse).

Ispezione dei parametri della rete

La Figura sotto mostra che, mentre nGPT mantiene una norma fissa per gli incorporamenti (per design), GPT presenta una variazione significativa. La distribuzione degli autovalori, calcolati dalla matrice di covarianza degli embeddings e normalizzati per la loro mediana, rivela che gli embeddings in ingresso a GPT hanno un numero di condizioni più elevato, soprattutto nel modello 1B. La distribuzione dei prodotti di punti a coppie tra gli embeddings indica che anche in nGPT gli embeddings non sono distribuiti uniformemente nell’ipersfera (dove il prodotto di punti si avvicinerebbe a 0), ma formano invece dei cluster, che probabilmente riflettono modelli naturali nei dati linguistici.

I prodotti dei punti in GPT tendono ad avere valori più alti perché gli embeddings formano un iperellissoide, come suggerito dalla diffusione delle norme vettoriali. La natura mal condizionata delle incorporazioni di input di GPT potrebbe portare a problemi computazionali legati a queste incorporazioni.

A sinistra: distribuzione delle norme dei vettori delle matrici di incorporamento di input (linea superiore) e di output (linea inferiore). Al centro: Distribuzione degli autovalori divisi per il loro valore mediano. A destra: Distribuzione a coppie dei prodotti di punti tra le incorporazioni. I modelli sono stati addestrati per 100k iterazioni.

La Figura sotto mostra i numeri di condizione mediani (tra le teste) per le matrici di attenzione e MLP a diverse profondità di strato: 24 strati per il modello 0,5B e 36 strati per il modello 1B. I modelli GPT presentano un numero di condizioni significativamente più alto nelle loro matrici di attenzione rispetto agli nGPT.

La Figura sotto mostra i valori assoluti medi di 𝒉A e 𝒉M a ogni livello. In particolare, la rete impara a fare solo passi modesti (20%-30%) nella direzione suggerita da 𝒉A e 𝒉M. La grandezza media di 𝜶A diminuisce da 0,25 nella rete 0,5B (24 strati) a 0,20 nella rete 1B (36 strati). Nel frattempo, 𝜶M diminuisce da 0,37 a 0,32, forse perché i blocchi MLP hanno più parametri, rendendo i loro suggerimenti più precisi.

(A sinistra): Tassi di apprendimento agli autogeni dei blocchi Attenzione e MLP. (Al centro): Fattori di scala applicati agli stati intermedi di MLP. (A destra): Fattori di scalatura applicati prima del prodotto di punti QK; distribuzione delle scalature per vettore applicate ai logit. I modelli sono addestrati per 100k iterazioni.

Un’ispezione più attenta di queste matrici suggerisce che esse degenerano in matrici di rango inferiore, riducendo potenzialmente la capacità di apprendimento di questi blocchi. Si potrebbe sostenere che i numeri di condizione elevati siano influenzati dalle norme dei vettori in queste matrici. Sebbene i numeri di condizione normalizzati siano ridotti, rimangono più alti di quelli dell’nGPT, indicando una potenziale carenza di rango. La necessità di tale normalizzazione evidenzia uno dei problemi che l’nGPT è specificamente progettato per affrontare.

Alcune considerazioni

Questo lavoro si basa su numerose scoperte e osservazioni chiave fatte sul campo che supportano direttamente (Wang & Isola, 2020; Xu & Durrett, 2018; Wang et al., 2017) e indirettamente (Salimans & Kingma, 2016; Franke et al., 2023; Kodryan et al., 2022; Kosson et al., 2023) l’apprendimento della rappresentazione sull’ipersfera. Uno dei nostri contributi principali è la normalizzazione delle dimensioni di incorporamento di tutte le matrici, per garantire che risiedano sulla stessa ipersfera. Gli scienziati di Nvidia hanno osservato che la normalizzazione da sola limita gli input delle unità non lineari e che quindi è necessario introdurre fattori di scala per queste unità.

In linea con i recenti studi che suggeriscono che i trasformatori eseguono implicitamente la discesa del gradiente come meta-ottimizzatori (Von Oswald et al., 2023; Dai et al., 2022), è stato dimostrato esplicitamente come questo processo avvenga nel trasformatore normalizzato: i) i blocchi di trasformazione forniscono informazioni sul gradiente, ii) queste informazioni vengono moltiplicate per i tassi di apprendimento degli autovalori per regolare lo stato nascosto, e iii) la normalizzazione comunemente usata può essere interpretata come un passo di ritrazione nell’ottimizzazione riemanniana, proiettando il punto nuovamente sull’ipersfera.

Gli scienziati affermano di essere i primi a disaccoppiare i tassi di apprendimento degli autogeni dal resto della rete, riconoscendoli come parametri addestrabili che possono essere interpretati come gli elementi diagonali di una matrice variabile-metrica.

In altre parole, il trasformatore normalizzato funziona come un ottimizzatore a metrica variabile, che cerca soluzioni in uscita utilizzando le informazioni sul gradiente stimate nei suoi blocchi di attenzione e MLP.

Conclusioni

La rappresentazione sferica fornisce preziose informazioni sugli interni dell’nGPT, consentendo la raccolta e l’analisi di statistiche sulle sue componenti normalizzate. Soprattutto, consente l’applicazione di tecniche matematiche specificamente progettate per trattare le ipersfere. I ricercatori ritengono che l’accelerazione riportata, di un fattore da 4 a 20, sia solo il primo passo verso la scoperta di nuovi algoritmi e architetture che potrebbero emergere da nGPT. Il lavoro futuro dovrebbe esplorare la scalabilità di nGPT a reti di dimensioni maggiori, a set di dati reali e a una gamma più ampia di compiti. Ad esempio, l’estensione di nGPT ad architetture encoder-decoder e ibride (Dao & Gu, 2024; De et al., 2024) è semplice.

Articoli correlati

Articolo 1 di 4