approfondimento

Ecco DeepSeek v3-0324, modello linguistico da 671 mld di parametri

Addestrato su 14,8 trilioni di token, il modello cinese si comporta ottimamente in matematica, codifica e ragionamento. Mantiene un’inferenza efficiente e supporta una finestra di contesto di 128K. Disponibile tramite API e download, stabilisce nuovi standard nell’AI

Pubblicato il 26 mar 2025

Giovanni Clericò

D eepSeek v3-0324 segna un passo avanti fondamentale nel campo dei modelli linguistici basati sull’intelligenza artificiale. Questo modello avanzato vanta una mastodontica architettura Mixture-of-Experts (MoE) con un totale di 671 miliardi di parametri, di cui 37 miliardi attivati per ciascun token, garantendo prestazioni all’avanguardia pur mantenendo un’inferenza efficiente.

Indice degli argomenti:

DeepSeek v3-0324: caratteristiche chiave e capacità avanzate

DeepSeek v3-0324 si distingue per una serie di caratteristiche innovative. La sua architettura MoE avanzata è al centro delle sue prestazioni ottimali. Il modello è stato sottoposto a un addestramento approfondito su 14,8 trilioni di token di alta qualità, conferendogli una conoscenza completa in svariati domini. DeepSeek v3-0324 dimostra prestazioni superiori in molteplici benchmark, tra cui matematica, codifica e attività multilingue.

Nei test, DeepSeek v3-0324 è risultato tre volte più veloce della versione precedente (R1), posizionandosi tra i migliori dieci modelli nella piattaforma di analisi Chatbot Arena, gestita dall’Università della California. Stando a DeepSeek, l’AI è stata sottoposta a rigorosi test da parte di esperti, anche in ambito di sicurezza, un elemento che ha sollevato vari dubbi in passato, con la paura che i dati prodotti dal chatbot potessero essere usati dal governo cinese.

Nonostante le sue dimensioni imponenti, il modello mantiene capacità di inferenza efficienti grazie a un design architetturale innovativo. Inoltre, la sua ampia finestra di contesto di 128K gli permette di elaborare e comprendere efficacemente sequenze di input estese. L’incorporazione della previsione multi-token avanzata contribuisce ulteriormente a prestazioni migliorate e a un’accelerazione dell’inferenza.

Prestazioni e versatilità

DeepSeek v3-0324 si comporta ottimamente in diverse attività, dalla generazione di testo al completamento del codice e al ragionamento matematico. La sua architettura avanzata assicura risposte di alta qualità grazie al suo modello di parametri da 671B, dimostrando ragionamento e comprensione avanzati. Il modello raggiunge risultati all’avanguardia in valutazioni di benchmark in matematica, codifica, ragionamento e attività multilingue.

Efficienza e accessibilità

Nonostante la sua complessità, DeepSeek v3-0324 è progettato per un’inferenza efficiente. Il modello supporta diverse opzioni di distribuzione, tra cui GPU NVIDIA, GPU AMD e NPU Huawei Ascend, con molteplici framework per prestazioni ottimali. DeepSeek v3-0324 è accessibile tramite una piattaforma demo online e servizi API. È anche possibile scaricare i pesi del modello per la distribuzione locale.

L’addestramento di DeepSeek v3-0324 è stato notevolmente efficiente, grazie all’uso di precisione mista FP8 e a un efficiente addestramento MoE tra nodi.

Riconoscimento e prospettive future

DeepSeek v3-0324 sta già ricevendo attenzione per il suo contributo all’avanzamento dei modelli linguistici AI. Il modello supera altri modelli open source e raggiunge prestazioni paragonabili ai principali modelli closed source in vari benchmark; supporta l’uso commerciale secondo i termini di licenza del modello.

Ulteriori aggiornamenti e approfondimenti sono disponibili sul blog ufficiale.

@RIPRODUZIONE RISERVATA