tecnologia

TOPS, token, batch: ecco gli indicatori delle prestazioni dell’AI sui PC



Indirizzo copiato

Come i token e la dimensione del batch influenzano la velocità di calcolo dell’AI. Inoltre, come funziona l’acceleratore TensorRT e il benchmark basato su Stable Diffusion

Pubblicato il 13 giu 2024



Nvidia

Cos’è un token? Perché la dimensione del batch è importante? E come aiutano a determinare la velocità di calcolo dell’AI? Lo spiega Nvidia nella sua rubrica “AI Decoded”. L’era del PC AI è arrivata, alimentata dalle tecnologie Nvidia RTX e GeForce RTX. Con essa arriva un nuovo modo di valutare le prestazioni per i compiti accelerati dall’AI, e un nuovo linguaggio che può essere scoraggiante da decifrare quando si sceglie tra i desktop e i laptop disponibili. Misurare le prestazioni dell’AI richiede nuove metriche.

TOPS, token, batch: cosa significano e come influenzano la velocità di esecuzione sui PC

In tutti i settori, l’AI sta potenziando l’innovazione con il calcolo basato sulle macchine.

Man mano che i modelli di intelligenza artificiale diventano più complessi e iniziano a gestire diversi tipi di dati come testo, audio, immagini e video, la necessità di una rapida elaborazione dei dati diventa più critica. Le organizzazioni che continuano a fare affidamento sull’elaborazione legacy basata su CPU sono alle prese con innovazioni e prestazioni ostacolate a causa di colli di bottiglia nei dati, costi crescenti dei data center e capacità di elaborazione insufficienti.

Molte aziende si rivolgono all’elaborazione accelerata per integrare l’intelligenza artificiale nelle loro operazioni. Questo metodo sfrutta GPU, hardware specializzato, software e tecniche di calcolo parallelo per aumentare le prestazioni di calcolo fino a 150 volte e aumentare l’efficienza energetica fino a 42 volte.

Aziende leader in diversi settori stanno utilizzando l’elaborazione accelerata dei dati per guidare iniziative di intelligenza artificiale rivoluzionarie.

Esaminiamo il significato di termini fondamentali per la misurazione delle prestazioni dell’AI su PC: TOPS, token, batch.

TOPS, trilioni di operazioni al secondo

La prima baseline è TOPS, ovvero trilioni di operazioni al secondo. Trilioni (si veda la definizione di Wikipedia) è la parola chiave qui – i numeri di elaborazione dietro ai compiti generativi dell’AI sono assolutamente massicci (nella scala anglosassone corrisponde a 1000 miliardi). Pensate a TOPS come una metrica grezza delle prestazioni, simile alla potenza di un motore. Più ce n’è meglio è. Prendete ad esempio la recentemente annunciata linea di PC Copilot+ di Microsoft, che include unità di elaborazione neurali (NPU) in grado di eseguire oltre 40 TOPS. Eseguire 40 TOPS è sufficiente per alcuni compiti leggeri assistiti dall’AI, come chiedere a un chatbot locale dove sono le note di ieri. Ma molti compiti generativi dell’AI sono più esigenti.

Le GPU Nvidia RTX e GeForce RTX offrono prestazioni elevate in tutti i compiti generativi: la GPU GeForce RTX 4090 offre oltre 1.300 TOPS. Questa è la potenza necessaria per gestire la creazione di contenuti digitali assistita dall’AI, la super risoluzione nei giochi su PC, la generazione di immagini da testo o video, l’interrogazione dei grandi modelli di linguaggio (LLM) locali e altro ancora.

Cosa sono i token

TOPS è solo l’inizio della storia. Le prestazioni degli LLM si misurano nel numero di token generati dal modello. I token sono l’output dell’LLM. Un token può essere una parola in una frase, o anche un frammento più piccolo come la punteggiatura o lo spazio bianco. Le prestazioni per i compiti accelerati dall’AI possono essere misurate in “token al secondo”.

Un altro fattore importante è la dimensione del batch, ovvero il numero di input elaborati simultaneamente in un singolo passaggio di inferenza. Poiché un LLM sarà al centro di molti moderni sistemi AI, la capacità di gestire input multipli (ad esempio da una singola applicazione o tra diverse applicazioni) sarà un elemento differenziatore chiave. Sebbene dimensioni del batch più grandi migliorino le prestazioni per input concorrenti, richiedono anche più memoria, specialmente quando combinati con modelli più grandi. Più si raggruppa, più (tempo) si risparmia.

Le GPU RTX sono particolarmente adatte per gli LLM grazie alle loro grandi quantità di memoria video dedicata (VRAM), ai Tensor Cores e al software TensorRT-LLM. Le GPU GeForce RTX offrono fino a 24GB di VRAM ad alta velocità, e le GPU NVIDIA RTX fino a 48GB, che possono gestire modelli più grandi e consentire dimensioni del batch più elevate.

Le GPU RTX sfruttano anche i Tensor Cores – acceleratori AI dedicati che velocizzano notevolmente le operazioni computazionalmente intensive richieste per l’apprendimento profondo e i modelli generativi dell’AI. Questa massima prestazione è facilmente accessibile quando un’applicazione utilizza il kit di sviluppo software (SDK) NVIDIA TensorRT, che sblocca l’AI generativa ad alte prestazioni su oltre 100 milioni di PC Windows e workstation alimentati da GPU RTX. La combinazione di memoria, acceleratori AI dedicati e software ottimizzato conferisce alle GPU RTX enormi guadagni in termini di throughput, soprattutto con l’aumentare delle dimensioni del batch.

Da testo a immagine a velocità super

Misurare la velocità di generazione delle immagini è un altro modo per valutare le prestazioni. Uno dei metodi più semplici utilizza Stable Diffusion, un popolare modello AI basato su immagini che permette agli utenti di convertire facilmente descrizioni testuali in rappresentazioni visive complesse. Con Stable Diffusion, gli utenti possono creare e perfezionare rapidamente immagini da prompt di testo per ottenere l’output desiderato. Utilizzando una GPU RTX, questi risultati possono essere generati più velocemente rispetto all’elaborazione del modello AI su una CPU o NPU. Questa prestazione è ancora maggiore quando si utilizza l’estensione TensorRT per la popolare interfaccia Automatic1111.

Accelerate Stable Diffusion with NVIDIA RTX GPUs
Video: Stable Diffusion con GPU Nvidia RTX

Gli utenti RTX possono generare immagini da prompt fino a 2 volte più velocemente con il checkpoint SDXL Base – semplificando notevolmente i flussi di lavoro di Stable Diffusion. ComfyUI, un’altra popolare interfaccia utente di Stable Diffusion, ha aggiunto l’accelerazione TensorRT la scorsa settimana. Gli utenti RTX possono ora generare immagini da prompt fino al 60% più velocemente, e possono persino convertire queste immagini in video utilizzando Stable Video Diffuson fino al 70% più velocemente con TensorRT.

L’accelerazione TensorRT può essere messa alla prova nel nuovo benchmark UL Procyon AI Image Generation, che offre miglioramenti del 50% su una GPU GeForce RTX 4080 SUPER rispetto alla più veloce implementazione non-TensorRT.

L’accelerazione TensorRT sarà presto rilasciata per Stable Diffusion 3 – il nuovo modello di testo-immagine molto atteso di Stability AI – aumentando le prestazioni del 50%. Inoltre, il nuovo TensorRT-Model Optimizer consente di accelerare ulteriormente le prestazioni. Questo si traduce in un aumento della velocità del 70% rispetto all’implementazione non-TensorRT, insieme a una riduzione del 50% nel consumo di memoria. Naturalmente, vedere è credere – il vero test è nell’uso reale del caso di iterazione su un prompt originale.

Gli utenti possono affinare la generazione di immagini modificando i prompt in modo significativamente più veloce sulle GPU RTX, impiegando secondi per iterazione rispetto ai minuti su un Macbook Pro M3 Max. Inoltre, gli utenti ottengono sia velocità che sicurezza con tutto ciò che rimane privato quando si esegue localmente su un PC o una workstation alimentata da RTX.

I risultati sono open source

Il team di ricercatori e ingegneri AI dietro l’open source Jan.ai ha recentemente integrato TensorRT-LLM nella sua app chatbot locale, poi ha testato queste ottimizzazioni per se stessi (Fonte: Jan.ai). I ricercatori hanno testato la sua implementazione di TensorRT-LLM contro il motore di inferenza open source llama.cpp su una varietà di GPU e CPU utilizzate dalla comunità. Hanno scoperto che TensorRT è “dal 30 al 70% più veloce di llama.cpp sullo stesso hardware”, oltre a essere più efficiente nelle esecuzioni consecutive. Il team ha anche incluso la sua metodologia, invitando altri a misurare le prestazioni dell’AI generativa.

Jan: Bring AI to your Desktop With 100% Offline AI

Articoli correlati

Articolo 1 di 3