Tecnologia

Meta: nuovi data center AI e supercomputer per alimentare il futuro “AI-first”

Pubblicato il 19 Mag 2023

Meta

In occasione dell’evento AI Infra @ Scale, una conferenza virtuale di un giorno ospitata dai team di ingegneria e infrastruttura, Meta ha annunciato una serie di nuovi progetti hardware e software che mirano a supportare la prossima generazione di applicazioni AI. Tra gli annunci c’è un nuovo design di data center per l’AI che sarà ottimizzato sia per l’addestramento che per l’inferenza dell’AI, le due fasi principali dello sviluppo e dell’esecuzione dei modelli di AI.

I nuovi data center sfrutteranno il silicio di proprietà di Meta, il Meta training and inference accelerator (MTIA), un chip che contribuirà ad accelerare i carichi di lavoro dell’AI in vari ambiti, come la computer vision, la processione del linguaggio naturale e i sistemi di raccomandazione.

Meta ha anche rivelato di aver già costruito il Research Supercluster (RSC), un supercomputer di intelligenza artificiale che integra 16.000 GPU per contribuire all’addestramento di modelli linguistici di grandi dimensioni (LLM) come il progetto LaMAprogetto che Meta ha annunciato alla fine di febbraio.

Cosa offre il nuovo acceleratore di inferenza AI di Meta

Anche Meta sta entrando nello spazio del silicio personalizzato con il suo chip MTIA. Anche i chip di inferenza AI costruiti su misura non sono una novità. Google ha sviluppato la sua unità di elaborazione tensoriale (TPU) per diversi anni e Amazon ha i suoi chip di inferenza AWS dal 2018.

Per Meta, l’esigenza di inferenza dell’intelligenza artificiale riguarda diversi aspetti delle operazioni per i suoi siti di social media, tra cui i feed di notizie, il ranking, la comprensione dei contenuti e le raccomandazioni. In un video che illustra il silicio MTIA, il ricercatore di Meta per le infrastrutture Amin Firoozshahian ha commentato che le CPU tradizionali non sono progettate per gestire le richieste di inferenza delle applicazioni che Meta esegue. Ecco perché l’azienda ha deciso di costruire il proprio silicio personalizzato.

“MTIA è un chip ottimizzato per i carichi di lavoro che ci interessano e realizzato appositamente per queste esigenze”, ha dichiarato Firoozshahian.

Meta è anche un grande utilizzatore del framework open source di apprendimento automatico (ML) PyTorch, che ha originariamente creato. Dal 2022, PyTorch è sotto la gestione della Fondazione Linux PyTorchFondazione della Linux Foundation. Parte dell’obiettivo di MTIA è quello di avere un silicio altamente ottimizzato per l’esecuzione di carichi di lavoro PyTorch su larga scala.

Il silicio MTIA è progettato con un processo a 7 nm (nanometri) e può fornire fino a 102,4 TOPS (trilioni di operazioni al secondo). L’MTIA fa parte di un approccio altamente integrato all’interno di Meta per ottimizzare le operazioni di AI, tra cui il networking, l’ottimizzazione dei data center e l’utilizzo dell’energia.

Il data center del futuro è costruito per l’AI

Meta ha costruito il proprio data center per oltre un decennio per soddisfare le esigenze dei suoi miliardi di utenti. Finora è andata bene, ma la crescita esplosiva delle richieste di AI significa che è ora di fare di più.

“La nostra attuale generazione di design di data center è di classe mondiale, efficiente dal punto di vista energetico e della potenza”, ha dichiarato Rachel Peterson, vicepresidente per la strategia dei data center di Meta, durante una tavola rotonda all’evento Infra @ scale. “Ci ha davvero supportato attraverso diverse generazioni di server, storage e rete ed è davvero in grado di servire i nostri attuali carichi di lavoro AI molto bene”.

Con la crescita dell’uso dell’AI in Meta, sarà necessaria una maggiore capacità di calcolo. Peterson ha osservato che Meta prevede un futuro in cui i chip AI consumeranno più di cinque volte la potenza dei server CPU tipici di Meta. Questa aspettativa ha indotto Meta a ripensare il raffreddamento del data center e a fornire un raffreddamento a liquido ai chip per garantire il giusto livello di efficienza energetica. La possibilità di avere il giusto raffreddamento e la giusta potenza per abilitare l’intelligenza artificiale è la forza trainante dei nuovi progetti di data center di Meta.

“Quando guardiamo al futuro, ci siamo sempre preoccupati di pianificare il futuro dell’hardware e dei sistemi di intelligenza artificiale e di come poter disporre di sistemi più performanti nella nostra flotta”, ha dichiarato Peterson.

Nella corsa alle infrastrutture AI anche Microsoft, IBM e Google

Meta non è certo l’unico hyperscaler o grande fornitore IT che sta pensando a un’infrastruttura AI appositamente costruita. A novembre, Microsoft e Nvidia hanno annunciato una partnership per un supercomputer AI nel cloud. Il sistema si avvale (non a caso) di GPU Nvidia, collegate alla tecnologia di rete Quantum 2 InfiniBand di Nvidia.

Pochi mesi dopo, a febbraio, IBM ha presentato i dettagli del suo supercomputer di intelligenza artificiale, il cui nome in codice è Vela. Il sistema di IBM utilizza silicio x86, insieme a GPU Nvidia e reti basate su Ethernet. Ogni nodo del sistema Vela è dotato di otto GPU A100 da 80 GB. L’obiettivo di IBM è quello di creare nuovi modelli di base che possano aiutare a soddisfare le esigenze di AI delle aziende.

Per non essere da meno, anche Google si è lanciata nella corsa ai supercomputer di intelligenza artificiale con un annuncio del 10 maggio. Il sistema di Google utilizza GPU Nvidia insieme a unità di elaborazione dell’infrastruttura (IPU) progettate su misura per consentire un rapido flusso di dati.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati