nGPT, è la nuova sigla che si affaccia nel panorama dell’intelligenza artificiale attuale. Un gruppo di autori, ricercatori che lavorano per Nvidia – Ilya Loshchilov, Cheng-Ping Hsieh, Simeng Sun e Boris Ginsburg – hanno pubblicato il 1° ottobre 2024 su Arxiv lo studio di una nuova architettura di rete neurale: il Trasformatore normalizzato (nGPT) con apprendimento della rappresentazione sull’ipersfera.
nGPT, che cos’è
La ricerca continua a investigare modi per ottimizzare queste architetture, aumentandone l’efficienza e diminuendo i costi computazionali. Il modello nGPT (Normalized Transformer) si colloca in questo ambito, introducendo una serie di innovazioni che lo rendono più efficiente rispetto ai Transformer tradizionali.
nGPT: una nuova architettura basata sulla normalizzazione
Il fulcro del modello nGPT è la rappresentazione su ipersfera: tutte le embedding e le matrici utilizzate nelle varie operazioni del modello sono normalizzate a una norma unitaria, posizionandosi su una superficie ipersferica. Questo implica che tutte le operazioni di moltiplicazione matrice-vettore possono essere viste come prodotti scalari che rappresentano similarità coseni limitate tra -1 e 1. La normalizzazione rende anche il modello più robusto durante l’addestramento, riducendo il rischio che alcune embedding assumano valori estremi che potrebbero causare instabilità. Inoltre, la normalizzazione semplifica il processo di apprendimento, rendendo i gradienti meno soggetti a esplosioni o vanificazioni.
Questa normalizzazione su ipersfera porta a una maggiore stabilità durante l’addestramento e a una miglior separabilità dello spazio delle embedding, rendendo il modello più efficiente nei compiti downstream, cioè quelli eseguiti dopo l’addestramento. Studi recenti hanno dimostrato che l’apprendimento delle rappresentazioni sull’ipersfera è associato a una migliore stabilità dell’addestramento, una maggiore capacità di generalizzazione e una rappresentazione più chiara delle relazioni tra concetti diversi. Ciò significa che il modello non solo apprende più rapidamente, ma è anche più preciso nell’effettuare inferenze su nuovi dati.
In nGPT, tutti i vettori che formano gli embeddings, le MLP, le matrici di attenzione e gli stati nascosti sono normalizzati all’unità. Il flusso di token in ingresso viaggia sulla superficie di un’ipersfera, con ogni strato che contribuisce a uno spostamento verso le previsioni in uscita. Questi spostamenti sono definiti dai blocchi MLP, le cui componenti vettoriali risiedono anch’esse sulla stessa ipersfera.
Gli esperimenti dimostrano che nGPT apprende molto più velocemente, riducendo il numero di fasi di addestramento necessarie per ottenere la stessa precisione di un fattore compreso tra 4 e 20, a seconda della lunghezza della sequenza.
nGPT in breve
nGPT di Nvidia è una nuova versione di GPT che forza i vettori a giacere su un’ipersfera, portando ad alcuni miglioramenti chiave:
• Velocità: da 4 a 20 volte più veloce di GPT, raggiungendo le stesse prestazioni in molti meno step di addestramento.
• Semplicità: non c’è bisogno di decadimento del peso o di regolazioni speciali del tasso di apprendimento, rendendo più facile l’addestramento.
• Sequenze più lunghe: nGPT gestisce sequenze di testo più lunghe rispetto a quelle su cui è stato addestrato.
Vincolando i vettori a un’ipersfera:
• Le moltiplicazioni di matrici agiscono come misurazione delle similarità vettoriali.
• Il Transformer funziona come un ottimizzatore per l’ipersfera.
L’analisi di nGPT mostra:
• I blocchi di attenzione e MLP apportano regolazioni più piccole agli stati nascosti rispetto ai Transformer tradizionali.
• I fattori di scala per la normalizzazione rimangono stabili tra gli strati.
nGPT sembra un approccio promettente per modelli linguistici più efficienti ed efficaci in futuro.
nGPT, cosa c’è alla base
L’architettura Transformer (Vaswani et al., 2017) è alla base della maggior parte dei modelli linguistici moderni. Sono state proposte numerose modifiche a questa architettura per migliorare la stabilità dell’addestramento, i costi di inferenza, la lunghezza del contesto, la robustezza, ecc. È stato notato che l’applicazione di varie tecniche di normalizzazione è vantaggiosa (Salimans & Kingma, 2016), il che ha portato a sperimentare l’aggiunta di livelli di normalizzazione come LayerNorm e RMSNorm in quasi tutte le posizioni possibili all’interno della rete (Xiong et al., 2020).
Un altro approccio alla normalizzazione del modello consiste nel controllare la norma dei pesi utilizzando il decadimento dei pesi (Loshchilov & Hutter, 2019). Studi recenti (Andriushchenko et al., 2023) suggeriscono di rivalutare il ruolo del decadimento dei pesi e di esaminare più da vicino le rotazioni piuttosto che concentrarsi esclusivamente sulle norme vettoriali (Kodryan et al., 2022; Kosson et al., 2023). Franke et al. (2023) hanno suggerito di imporre un limite superiore alla norma L2 dei gruppi di parametri. È sempre più evidente che l’apprendimento della rappresentazione sull’ipersfera è associato a un addestramento più stabile, a una maggiore separabilità dello spazio di incorporazione e a migliori prestazioni nei compiti a valle (Wang & Isola, 2020).
Studi recenti suggeriscono inoltre che i trasformatori eseguono implicitamente la discesa del gradiente come meta-ottimizzatori (Von Oswald et al., 2023; Dai et al., 2022).
Il gruppo di scienziati di Nvidia propone di unificare le varie scoperte e osservazioni fatte nel campo sotto una nuova prospettiva di trasformatore normalizzato.
I loro contributi chiave sono i seguenti:
- Ottimizzazione dei parametri di rete sull’ipersfera – essi propongono di normalizzare tutti i vettori che formano le dimensioni di incorporazione delle matrici di rete in modo che giacciano su un’ipersfera a norma unitaria. Questo permette di vedere le moltiplicazioni matrice-vettore come prodotti di punti che rappresentano somiglianze di coseno delimitate in [-1,1]. La normalizzazione rende superfluo il decadimento dei pesi.
- Il Trasformatore normalizzato come ottimizzatore a metrica variabile sull’ipersfera – Il Trasformatore normalizzato stesso esegue un’ottimizzazione in più fasi (due fasi per strato) su un’ipersfera, dove ogni fase dell’attenzione e degli aggiornamenti dell’MLP è controllata dai tassi di apprendimento degli autogeni, gli elementi diagonali di una matrice a metrica variabile apprendibile. Per ogni token ti nella sequenza di input, il percorso di ottimizzazione del trasformatore normalizzato inizia in un punto dell’ipersfera corrispondente al suo vettore di incorporazione di input e si sposta in un punto dell’ipersfera che predice al meglio il vettore di incorporazione del token successivo ti+1.
Convergenza più rapida – i ricercatori dimostrano che il trasformatore normalizzato riduce il numero di passi di addestramento necessari per ottenere la stessa precisione di un fattore compreso tra 4 e 20.
L’evoluzione del trasformatore: da GPT a nGPT
Nel loro documento, i ricercatori illustrano il trasformatore di base e le modifiche necessarie per ottenere la sua versione normalizzata, con la sola autoattenzione. L’estensione a encoder-decoder e cross-attention è semplice.
Esperimenti
Gli scienziati di Nvidia hanno addestrato sia il trasformatore di base (GPT) sia il trasformatore normalizzato (nGPT) sul dataset OpenWebText (Gokaslan & Cohen, 2019) e li hanno valutati su una serie di compiti standard a valle. Essi hanno sperimentato i modelli contenenti 0,5B e 1B parametri, inclusi gli embeddings. Sia per GPT che per nGPT, hanno riportato i risultati utilizzando le migliori impostazioni del tasso di apprendimento iniziale.
Accelerazione dell’addestramento
La figura sotto mostra un andamento simile per tutti i compiti a valle, confermando che l’accelerazione non si riflette solo sulla perplessità, ma anche sulle prestazioni del compito. Si osserva una certa saturazione per le esecuzioni più lunghe di nGPT, suggerendo che la capacità del modello è quasi raggiunta per questo numero di parametri addestrabili.
Ispezione dei parametri della rete
La Figura sotto mostra che, mentre nGPT mantiene una norma fissa per gli incorporamenti (per design), GPT presenta una variazione significativa. La distribuzione degli autovalori, calcolati dalla matrice di covarianza degli embeddings e normalizzati per la loro mediana, rivela che gli embeddings in ingresso a GPT hanno un numero di condizioni più elevato, soprattutto nel modello 1B. La distribuzione dei prodotti di punti a coppie tra gli embeddings indica che anche in nGPT gli embeddings non sono distribuiti uniformemente nell’ipersfera (dove il prodotto di punti si avvicinerebbe a 0), ma formano invece dei cluster, che probabilmente riflettono modelli naturali nei dati linguistici.
I prodotti dei punti in GPT tendono ad avere valori più alti perché gli embeddings formano un iperellissoide, come suggerito dalla diffusione delle norme vettoriali. La natura mal condizionata delle incorporazioni di input di GPT potrebbe portare a problemi computazionali legati a queste incorporazioni.
La Figura sotto mostra i numeri di condizione mediani (tra le teste) per le matrici di attenzione e MLP a diverse profondità di strato: 24 strati per il modello 0,5B e 36 strati per il modello 1B. I modelli GPT presentano un numero di condizioni significativamente più alto nelle loro matrici di attenzione rispetto agli nGPT.
La Figura sotto mostra i valori assoluti medi di 𝒉A e 𝒉M a ogni livello. In particolare, la rete impara a fare solo passi modesti (20%-30%) nella direzione suggerita da 𝒉A e 𝒉M. La grandezza media di 𝜶A diminuisce da 0,25 nella rete 0,5B (24 strati) a 0,20 nella rete 1B (36 strati). Nel frattempo, 𝜶M diminuisce da 0,37 a 0,32, forse perché i blocchi MLP hanno più parametri, rendendo i loro suggerimenti più precisi.
Un’ispezione più attenta di queste matrici suggerisce che esse degenerano in matrici di rango inferiore, riducendo potenzialmente la capacità di apprendimento di questi blocchi. Si potrebbe sostenere che i numeri di condizione elevati siano influenzati dalle norme dei vettori in queste matrici. Sebbene i numeri di condizione normalizzati siano ridotti, rimangono più alti di quelli dell’nGPT, indicando una potenziale carenza di rango. La necessità di tale normalizzazione evidenzia uno dei problemi che l’nGPT è specificamente progettato per affrontare.
Alcune considerazioni
Questo lavoro si basa su numerose scoperte e osservazioni chiave fatte sul campo che supportano direttamente (Wang & Isola, 2020; Xu & Durrett, 2018; Wang et al., 2017) e indirettamente (Salimans & Kingma, 2016; Franke et al., 2023; Kodryan et al., 2022; Kosson et al., 2023) l’apprendimento della rappresentazione sull’ipersfera. Uno dei nostri contributi principali è la normalizzazione delle dimensioni di incorporamento di tutte le matrici, per garantire che risiedano sulla stessa ipersfera. Gli scienziati di Nvidia hanno osservato che la normalizzazione da sola limita gli input delle unità non lineari e che quindi è necessario introdurre fattori di scala per queste unità.
In linea con i recenti studi che suggeriscono che i trasformatori eseguono implicitamente la discesa del gradiente come meta-ottimizzatori (Von Oswald et al., 2023; Dai et al., 2022), è stato dimostrato esplicitamente come questo processo avvenga nel trasformatore normalizzato: i) i blocchi di trasformazione forniscono informazioni sul gradiente, ii) queste informazioni vengono moltiplicate per i tassi di apprendimento degli autovalori per regolare lo stato nascosto, e iii) la normalizzazione comunemente usata può essere interpretata come un passo di ritrazione nell’ottimizzazione riemanniana, proiettando il punto nuovamente sull’ipersfera.
Gli scienziati affermano di essere i primi a disaccoppiare i tassi di apprendimento degli autogeni dal resto della rete, riconoscendoli come parametri addestrabili che possono essere interpretati come gli elementi diagonali di una matrice variabile-metrica.
In altre parole, il trasformatore normalizzato funziona come un ottimizzatore a metrica variabile, che cerca soluzioni in uscita utilizzando le informazioni sul gradiente stimate nei suoi blocchi di attenzione e MLP.
Conclusioni
La rappresentazione sferica fornisce preziose informazioni sugli interni dell’nGPT, consentendo la raccolta e l’analisi di statistiche sulle sue componenti normalizzate. Soprattutto, consente l’applicazione di tecniche matematiche specificamente progettate per trattare le ipersfere. I ricercatori ritengono che l’accelerazione riportata, di un fattore da 4 a 20, sia solo il primo passo verso la scoperta di nuovi algoritmi e architetture che potrebbero emergere da nGPT. Il lavoro futuro dovrebbe esplorare la scalabilità di nGPT a reti di dimensioni maggiori, a set di dati reali e a una gamma più ampia di compiti. Ad esempio, l’estensione di nGPT ad architetture encoder-decoder e ibride (Dao & Gu, 2024; De et al., 2024) è semplice.