ricerca

LLM, una nuova tecnica può accelerarli di 300 volte



Indirizzo copiato

Ricercatori dell’ETH di Zurigo sono riusciti ad aumentare significativamente la velocità delle reti neurali e hanno dimostrato che modificando il processo di inferenza è possibile ridurre drasticamente i requisiti computazionali di queste reti

Pubblicato il 27 nov 2023



LLM

Iricercatori dell’ETH di Zurigo hanno sviluppato una nuova tecnica in grado di aumentare significativamente la velocità delle reti neurali. Hanno dimostrato che modificando il processo di inferenza è possibile ridurre drasticamente i requisiti computazionali di queste reti.

Negli esperimenti condotti su BERT, un modello transformer utilizzato in vari compiti linguistici, hanno ottenuto una riduzione sorprendente di oltre il 99% nei calcoli. Questa innovativa tecnica può essere applicata anche ai modelli transformer utilizzati nei grandi modelli linguistici (LLM) come GPT-3, aprendo nuove possibilità per un elaborazione del linguaggio più veloce ed efficiente.

Reti feedforward veloci

I transformer, le reti neurali alla base degli LLM, sono composti da vari strati, tra cui strati di attenzione e strati feedforward. Questi ultimi, che rappresentano una parte sostanziale dei parametri del modello, sono computazionalmente impegnativi a causa della necessità di calcolare il prodotto di tutti i neuroni e le dimensioni di input.

Tuttavia, il documento dei ricercatori mostra che non tutti i neuroni all’interno degli strati feedforward devono essere attivi durante il processo di inferenza per ogni input. Propongono l’introduzione di strati “feedforward veloci” (FFF) come sostituzione per gli strati feedforward tradizionali.

FFF utilizza un’operazione matematica nota come moltiplicazione di matrici condizionale (CMM), che sostituisce le moltiplicazioni di matrici dense (DMM) utilizzate dalle reti feedforward convenzionali.

Nel DMM, tutti i parametri di input vengono moltiplicati per tutti i neuroni della rete, un processo sia computazionalmente intenso che inefficiente. Al contrario, CMM gestisce l’inferenza in modo che nessun input richieda più di un pugno di neuroni per l’elaborazione da parte della rete.

Identificando i neuroni giusti per ogni calcolo, FFF può ridurre significativamente il carico computazionale, portando a modelli linguistici più veloci ed efficienti.

FastBERT eguaglia BERT utilizzando solo lo 0,3% dei neuroni feedforward

Per validare la loro innovativa tecnica, i ricercatori hanno sviluppato FastBERT, una modifica del modello transformer BERT di Google. FastBERT rivoluziona il modello sostituendo gli strati feedforward intermedi con strati feedforward veloci. Gli FFF organizzano i loro neuroni in un albero binario bilanciato, eseguendo solo un ramo condizionalmente in base all’input.

Per valutare le prestazioni di FastBERT, i ricercatori hanno ottimizzato diverse varianti su diversi compiti del benchmark General Language Understanding Evaluation (GLUE). GLUE è una vasta raccolta di set di dati progettati per l’addestramento, la valutazione e l’analisi dei sistemi di comprensione del linguaggio naturale.

I risultati sono stati impressionanti, con FastBERT che ha ottenuto prestazioni paragonabili ai modelli BERT di base di dimensioni e procedure di addestramento simili. Le varianti di FastBERT, addestrate per un solo giorno su una singola GPU A6000, hanno mantenuto almeno il 96,0% delle prestazioni del modello BERT originale. Sorprendentemente, il modello FastBERT ha eguagliato le prestazioni del modello BERT originale utilizzando solo lo 0,3% dei suoi neuroni feedforward.

I ricercatori ritengono che l’integrazione delle reti feedforward veloci negli LLM abbia un enorme potenziale per l’accelerazione. Ad esempio, in GPT-3, le reti feedforward in ogni strato transformer consistono di 49.152 neuroni.

I ricercatori notano: “Se addestrabile, questa rete potrebbe essere sostituita con una rete feedforward veloce di profondità massima 15, che conterrebbe 65536 neuroni ma ne utilizzerebbe solo 16 per l’inferenza. Questo equivale a circa lo 0,03% dei neuroni di GPT-3”.

Migliorata anche la velocità di inferenza

C’è stata un’ottimizzazione significativa dell’hardware e del software per la moltiplicazione di matrici dense, l’operazione matematica utilizzata nelle reti neurali feedforward tradizionali.

“Moltiplicazione di matrici dense è l’operazione matematica più ottimizzata nella storia dell’informatica”, scrivono i ricercatori. “È stato fatto un enorme sforzo per progettare memorie, chip, set di istruzioni e routine software che la eseguano il più velocemente possibile. Molti di questi progressi sono stati – sia per la loro complessità che per il vantaggio competitivo – mantenuti riservati e esposti all’utente finale solo attraverso potenti ma restrittive interfacce di programmazione”.

In contrasto, attualmente non esiste un’implementazione efficiente e nativa della moltiplicazione di matrici condizionale, l’operazione utilizzata nelle reti feedforward veloci. Nessun popolare framework di deep learning offre un’interfaccia che potrebbe essere utilizzata per implementare CMM oltre a una simulazione ad alto livello.

I ricercatori hanno sviluppato la loro implementazione delle operazioni CMM basata su istruzioni CPU e GPU. Questo ha portato a un notevole miglioramento della velocità di inferenza di 78 volte.

Tuttavia, i ricercatori ritengono che con un hardware migliore e un’implementazione a basso livello dell’algoritmo, ci potrebbe essere un potenziale per un miglioramento di oltre 300 volte nella velocità di inferenza. Questo potrebbe affrontare significativamente una delle principali sfide dei modelli linguistici: il numero di token che generano al secondo.

“Con una promessa teorica di accelerazione di 341 volte alla scala dei modelli BERT-base, speriamo che il nostro lavoro ispirerà uno sforzo per implementare primitive per l’esecuzione neurale condizionale come parte delle interfacce di programmazione dei dispositivi”, scrivono i ricercatori.

Questa ricerca fa parte di uno sforzo più ampio per affrontare i colli di bottiglia della memoria e del calcolo dei grandi modelli linguistici, spianando la strada per sistemi di intelligenza artificiale più efficienti e potenti.

Articoli correlati

Articolo 1 di 3