APPROFONDIMENTO

I migliori supercomputer per il training AI

Con lo sviluppo dell’intelligenza artificiale cresce la domanda di supercalcolo a livello globale che Paesi e big tech cercano di intercettare realizzando sistemi più potenti di classe esascala

Pubblicato il 1 mar 2024

Carlo Lavalle

giornalista

Nvidia ha mostrato, a metà febbraio, le prime immagini di Eos, supercomputer realizzato per migliorare il training dei modelli AI e dare impulso all’innovazione AI. Il nome riprende quello di un’antica divinità della mitologia greca, personificazione dell’Aurora.

Il supercomputer, annunciato a novembre 2023, viene presentato come una risorsa fondamentale per sfruttare la potenza AI e accelerare lo sviluppo di applicazioni AI.

Indice degli argomenti:

Supercomputer, un mercato da 3,3 mld di dollari entro il 2028

La macchina di Nvidia va ad arricchire la platea di prodotti in un mercato in crescita che, secondo le stime di ResearchAndMarkets.com, è destinato a raggiungere un giro d’affari di 3,3 miliardi di dollari entro il 2028.

I progressi dell’AI e la sua rapida adozione nel sistema produttivo implicano una crescente necessità di maggiore potenza di calcolo. Come dimostra la ricerca “Compute Trends Across Three Eras of Machine Learning”, l’avvento dei modelli LLM comporta la tendenza a un incremento di domanda di calcolo che è molto più alta rispetto alla pregressa esigenza dei sistemi di deep learning.

Il training di modelli come GPT-3 richiede un dispendio di risorse computazionali assai elevato, senza precedenti, obbligando le grandi aziende del settore a ingenti investimenti di capitale (anche fino all’80%) in quest’area.

Una task force dell’OCSE

La dotazione di una infrastruttura di calcolo adeguata, in un quadro in cui l’AI rappresenta una opportunità di crescita economica e di miglioramento della competitività, è materia che interessa anche i paesi. È questa la ragione per cui l’Ocse ha predisposto una task force di esperti – co-presieduta dal vicepresidente AI Initiatives di Nvidia –, con il compito di misurare e valutare la disponibilità delle risorse di calcolo a livello nazionale, pubblicando un importante documento dedicato al tema.

Eos di Nvidia, le caratteristiche

La creazione di supercomputer assume, pertanto, una dimensione strategica nel contesto di concorrenza internazionale in ambito AI. Nvidia è una delle aziende più impegnate in questa partita globale con soluzioni all’avanguardia.

Eos è, infatti, uno dei supercomputer più veloci al mondo, avendo raggiunto la nona posizione della classifica TOP500, con prestazioni su benchmark linpack pari a 121,4 exaflops.

Quanto alle caratteristiche tecniche, la base è costituita dal cuore dell’innovativa architettura DGX SuperPOD per data center AI, che consente anche simulazioni quantistiche, e si compone di 576 sistemi DGX H100, ognuno dei quali è dotato di 8 GPU Tensor Core di quarta generazione in grado di accelerare il training AI fino a 9 volte rispetto alla generazione precedente, e da piattaforma di rete Nvidia Quantum-2 mediante cui si ottiene velocità di trasferimento dati fino a 400 GB/, facilitando il rapido spostamento di dataset di grandi dimensioni, fondamentali per l’addestramento di modelli AI complessi. Su formati FP8 si fornisce una prestazione pari a 18,4 exaflops.

Eos arriva in un momento di grande sviluppo dell’AI generativa applicata in vari settori come sanità, customer service o finanza.

Per stare al passo con queste trasformazioni, secondo Nvidia, bisogna supportare l’attività di ricercatori e sviluppatori con una fabbrica AI e un motore AI appositamente costruito che sia sempre disponibile e possa sostenere lo sforzo di incrementare lo sviluppo di modelli AI su larga scala.

Frontier, supercomputer per l’AI di HPE

Anche Frontier, il miglior supercomputer al mondo, primo nella classifica Top500, rientra nel novero di quelli predisposti per l’attività AI. Incluso nelle migliori invenzioni del 2023 dal Time, è un sistema, operativo dal 2022, e realizzato da Hewlett Packard Enterprise per l’Oak Ridge National Laboratory del dipartimento dell’energia Usa, che può vantare capacità computazionale di 1,194 exaflop, con prestazioni di picco teoriche proiettate verso i 2 exaflop.

Stante le sue performance, Frontier, frutto positivo della partnership tra pubblico e privato, rappresenta una struttura che abilita l’applicazione dell’AI in campo sanitario, nella ricerca in ambito climatico e nucleare aprendo nuove possibilità per l’innovazione scientifica.

In quest’ottica, l’Oak Ridge National Laboratory ha aderito al Trillion Parameter Consortium, consorzio che riunisce scienziati di laboratori, istituti di ricerca, accademie e industria, provenienti da tutto il mondo, con l’obiettivo di affrontare le sfide nella costruzione di sistemi AI su larga scala e contribuire al progresso dell’AI affidabile e sicura per la ricerca scientifica.

Il lavoro svolto dai vari team che partecipano all’iniziativa puntano a utilizzare le piattaforme di calcolo a esascala (in grado di eseguire 1018 operazioni al secondo) per il training di LLM con trilioni di parametri cercando di superare vecchie barriere e delineare nuovi progetti pionieristici. Frontier è il primo sistema ad aver raggiunto il livello di prestazioni di calcolo exascale e i ricercatori hanno esplorate tecniche innovative per efficientarne l’impiego e aumentarne il rendimento per applicazioni sull’addestramento di modelli come GPT a 1 trilione di parametri.

Frontier: Leading the Way in AI and Machine Learning

Guarda questo video su YouTube

Video: Frontier

Il supercomputer Vela di Ibm

Altro supercomputer adatto per il training AI è Vela, realizzato da Ibm Research che recentemente ha subito un aggiornamento per migliorare le prestazioni sull’addestramento di modelli AI di grandi dimensioni.

La macchina, cloud-native e cloud-first, è ottimizzata per l’intelligenza artificiale ed è stata progettata nell’ottica di creare sistemi che abbiano le necessarie capacità di calcolo per eseguire in maniera efficiente le varie fasi del ciclo di vita AI.

Vela è stato potenziato per rispondere alla crescente domanda di watsonx, piattaforma dati e AI per le imprese di Ibm, con la prospettiva di migliorare in particolare la capacità di inferenza.

Il sistema adesso si compone di un numero di GPU doppio rispetto a quello iniziale, e contemporaneamente si è lavorato non solo in termini di espandibilità ma anche per efficientare spazio e risorse della macchina (es : raddoppio della densità dei rack). Il team che ha costruito Vela è intervenuto oltrettutto per rafforzare e velocizzare la diagnostica automatizzata onde monitorare i guasti e problematiche di hardware (nodi e singole GPU).

I supercomputer made in China

La Cina ha, qualche mese fa, svelato il supercomputer Tianhe Xingyi del National Supercomputing Center di Guangzhou, in cui opera anche Tianhe-2, giudicato il più veloce supercomputer del mondo nel periodo 2013-2015 e attualmente 14° nella classifica TOP500.

Il nuovo sistema è stato sviluppato per soddisfare la richiesta di potenza di calcolo dovuta al training dei modelli LLM e per fini di analisi dei big data. Poco si sa, comunque, sulle caratteristiche tecniche di questa macchina, solo che le sue prestazioni superano quelle di Tianhe-2, stando alle dichiarazioni di Lu Yutong, responsabile del National Supercomputing Center.

Lo sviluppo di supercomputer in Cina fatica a stare dietro all’accelerazione Usa in questo settore, sebbene da un documento di ricercatori di Alibaba Group, Tsinghua University, e Beijing Academy of Artificial Intelligence, pubblicato dal sito The Next Platform, si possa desumere che il sistema OceanLight abbia stabilito il traguardo del calcolo a esascala.

D’altra parte, Pechino si muove in un nuova prospettiva che è quella di realizzare supercomputer con componenti e tecnologia unicamente made in China. Il debutto del supercomputer del Central Intelligent Computing Center di Wuhan, predisposto per il training dei grandi modelli AI, ne è una riprova.

Leonardo e i supercomputer Ue

Per quanto riguarda i paesi Ue, grazie al partenariato pubblico-privato, sviluppato attraverso l’iniziativa EuroHPC (Impresa comune europea per il calcolo ad alte prestazioni), a cui partecipano 33 stati, si possono contare nove importanti supercomputer tra i quali figura Leonardo, che si piazza al quinto posto della classifica TOP500.

Leonardo

Il sistema, concepito e gestito da Cineca, consorzio interuniversitario italiano senza scopo di lucro, collocato presso il Terzo Polo di Bologna, è la sesta macchina al mondo per potenza di calcolo (250 petaflop pari a 250 milioni di miliardi di calcoli al secondo), 10 volte superiore a Marconi100, con oltre 100 PB di capacità di storage. È il secondo dei supercomputer europei pre-esascala dopo Lumi (Finlandia).

Leonardo ha un’architettura adatta al training AI ed è stato pensato come struttura di supercalcolo pubblica, accessibile gratis per i gruppi di ricerca.

Leonardo System Design

Guarda questo video su YouTube

Video: Leonardo

Jupiter

Jupiter, invece, è il primo supercomputer Ue di classe esascala che dovrebbe entrare in funzione a fine 2024. Il sistema, realizzato grazie a un investimento di 500 milioni di euro, verrà gestito dal centro di supercalcolo Julich, in Germania. Jupiter è costituito da due componenti principali (modulo Booster e Cluster) e sarà equipaggiato con 24mila superchip Nvidia GH200 e piattaforma Quantum-2 Infiniband.

Jupiter è stato progettato per eseguire simulazioni e applicazioni AI ad alta intensità di calcolo in ambito scientifico e industriale venendo impiegato per il training dei modelli LLM (90 exaflop di performance) e per creare gemelli digitali utili alla ricerca medica e climatica.

Conclusioni

L’avvento dei modelli LLM ha significato un significativo aumento della domanda di calcolo per il training AI. Siamo entrati nell’era large-scale che richiede strutture e sistemi più avanzati di supercomputing in grado di armonizzare con questa tendenza di sviluppo AI. Evoluzione di supercomputer e AI è strettamente correlata. Big tech e paesi si stanno attrezzando per fronteggiare questa nuova fase che implica la realizzazione di macchine sempre più veloci e potenti.

@RIPRODUZIONE RISERVATA

Argomenti

Canali

Intelligenza Artificiale