Non si è ancora spenta l’eco delle gesta di DeepSeek che ecco arriva una nuova famiglia di modelli linguistici di grandi dimensioni “made in China”: Qwen 2.5, sviluppata da Alibaba Cloud. Le caratteristiche di questi modelli sono sicuramente interessanti, soprattutto il modello “Max”. Ecco i dettagli principali:
Indice degli argomenti:
Qwen 2.5, le caratteristiche principali
Il rilascio include modelli LLM Qwen2.5, con una novità significativa: tutti sono stati pre-addestrati su un dataset di enormi dimensioni che copre fino a 20 trilioni (mille miliardi) di token.
Rispetto alla versione precedente, Qwen2.5 presenta miglioramenti significativi:
- maggiore conoscenza (MMLU oltre 85)
- migliorate capacità di coding (HumanEval 85+)
- migliorate capacità matematiche (MATH 80+)
- supporto fino a 128K token
- generazione fino a 8K token
- supporto multilingue per oltre 29 lingue, inclusi cinese, inglese, francese, spagnolo, portoghese, tedesco, italiano, russo, giapponese, coreano, vietnamita, thai, arabo e altri.
I modelli specializzati
La famiglia include due modelli esperti:
- Qwen2.5-Coder: specializzato in coding
- Qwen2.5-Math: specializzato in matematica
Sono stati introdotti anche i modelli Qwen2.5-14B e Qwen2.5-32B, che superano i modelli baseline di dimensioni simili o maggiori, come Phi-3.5-MoE-Instruct e Gemma2-27B-IT.
Modelli di coding
Qwen2.5-Coder è stato addestrato su 5,5 trilioni di token di dati relativi al codice, permettendo anche ai modelli più piccoli di ottenere prestazioni competitive nei benchmark di valutazione del coding.
Modelli matematici
Qwen2.5-Math supporta sia cinese che inglese e integra diversi metodi di ragionamento, tra cui:
- Chain-of-Thought (CoT)
- Program-of-Thought (PoT)
- Tool-Integrated Reasoning (TIR)
Qwen2.5-Max
È ormai riconosciuto che scalare continuamente sia le dimensioni dei dati che quelle del modello può portare a miglioramenti significativi nell’intelligenza del modello. Tuttavia, la comunità della ricerca e dell’industria ha un’esperienza limitata nello scalare efficacemente modelli estremamente grandi, sia che si tratti di modelli densi che di modelli Mixture-of-Expert (MoE). Molti dettagli critici relativi a questo processo di scalatura sono stati resi noti solo con il recente rilascio di DeepSeek V3.
![](https://img.ai4business.it/wp-content/uploads/2025/01/29173843/image-81.png)
Qwen2.5-Max è un modello MoE su larga scala che è stato pre-addestrato su oltre 20 trilioni (mille miliardi) di token e ulteriormente post-addestrato con metodologie curate di Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF).
Il 28 gennaio, primo giorno del Capodanno lunare del 2025, Alibaba ha condiviso i risultati delle prestazioni di Qwen2.5-Max e ha annunciare la disponibilità della sua API attraverso Alibaba Cloud.
Si possono esplorare le caratterisiche di Qwen2.5-Max su Qwen Chat.
Qwen 2.5-Max, le prestazioni
Qwen2.5-Max è stato valutato insieme ai principali modelli, sia proprietari che open-weight, attraverso una serie di benchmark di grande interesse per la comunità. Questi includono MMLU-Pro, che testa le conoscenze attraverso problemi di livello universitario, LiveCodeBench, che valuta le capacità di codifica, LiveBench, che testa in modo completo le capacità generali, e Arena-Hard, che approssima le preferenze umane. I risultati includono i punteggi delle prestazioni sia per i modelli di base sia per i modelli istruttivi.
![](https://img.ai4business.it/wp-content/uploads/2025/01/29175518/image-82.png)
Iniziamo confrontando direttamente le prestazioni dei modelli che possono servire per applicazioni come la chat e la codifica. Presentiamo i risultati delle prestazioni di Qwen2.5-Max insieme ai principali modelli all’avanguardia, tra cui DeepSeek V3, GPT-4o e Claude-3.5-Sonnet.
![Qwen2.5](https://img.ai4business.it/wp-content/uploads/2025/01/29171222/image-79.png)
Qwen2.5-Max supera DeepSeek V3 in benchmark come Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond, dimostrando risultati competitivi anche in altre valutazioni, come MMLU-Pro.
Nel confrontare i modelli di base, Alibaba non è stata in grado di accedere ai modelli proprietari come GPT-4o e Claude-3.5-Sonnet. Pertanto hanno valutato Qwen2.5-Max rispetto a DeepSeek V3, uno dei principali modelli MoE open weight; Llama-3.1-405B, il più grande modello denso open weight, e Qwen2.5-72B, che è anche tra i migliori modelli densi weight open. I risultati di questo confronto sono presentati di seguito.
![](https://img.ai4business.it/wp-content/uploads/2025/01/29171518/image-80.png)
I modelli di base hanno dimostrato vantaggi significativi nella maggior parte dei benchmark e Alibaba si dice ottimista sul fatto che i progressi nelle tecniche di post-training porteranno la prossima versione di Qwen2.5-Max a nuovi livelli.
Qwen 2.5-Max si distingue anche per un consumo energetico leggermente inferiore, un fattore sempre più importante nella valutazione dei modelli di intelligenza artificiale.
![](https://img.ai4business.it/wp-content/uploads/2025/01/29175705/image-83.png)
Come utilizzare Qwen2.5-Max
Qwen2.5-Max è disponibile in Qwen Chat ed è possibile chattare direttamente con il modello, giocare con gli artefatti, effettuare ricerche, ecc.
L’API di Qwen2.5-Max (il cui nome del modello è qwen-max-2025-01-25) è disponibile. È possibile registrare un account Alibaba Cloud e attivare il servizio Alibaba Cloud Model Studio, quindi accedere alla console e creare una chiave API.
Poiché le API di Qwen sono compatibili con OpenAI-API, si può seguire direttamente la pratica comune di utilizzo delle API OpenAI.
Di seguito è riportato un esempio di utilizzo di Qwen2.5-Max in Python:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv(“API_KEY”),
base_url=”https://dashscope-intl.aliyuncs.com/compatible-mode/v1″,
)
completion = client.chat.completions.create(
model=”qwen-max-2025-01-25″,
messages=[
{‘role’: ‘system’, ‘content’: ‘You are a helpful assistant.’},
{‘role’: ‘user’, ‘content’: ‘Which number is larger, 9.11 or 9.8?’}
]
)
print(completion.choices[0].message)
Quali settori beneficiano maggiormente dall’uso di Qwen 2.5-Max
Qwen 2.5-Max è particolarmente vantaggioso per diversi settori chiave:
Sviluppo software
- Assistenza nella scrittura e correzione di codice
- Analisi dei requisiti progettuali
- Supporto per programmatori con strumenti di AI dedicati
Ricerca scientifica
- Elaborazione complessa di dati
- Analisi matematica avanzata
- Supporto per ricerche interdisciplinari
Automotive
- Sviluppo di sistemi di guida autonoma
- Elaborazione di dati da sensori e video
- Assistenza nella progettazione tecnica
Videogiochi
- Generazione di contenuti
- Sviluppo di narrativa e scenari
- Miglioramento dell’esperienza di gioco con AI generativa
Servizi multimediali
- Generazione di video da testo
- Trasformazione di immagini statiche in contenuti dinamici
- Comprensione e analisi di video lunghi.
In quali contesti Qwen2.5-Max dimostra maggiore precisione semantica
Qwen 2.5-Max dimostra una maggiore precisione semantica in diversi contesti chiave:
Sviluppo software
- Analisi di codice complesso
- Interpretazione di requisiti progettuali
- Comprensione del contesto di programmazione
Elaborazione linguistica
- Supporto multilingua (oltre 29 lingue)
- Capacità di type-shifting semantico
- Gestione di sfumature contestuali nei diversi linguaggi
Ricerca scientifica
- Elaborazione di dati testuali complessi
- Analisi di relazioni semantiche sottili
- Ricostruzione di contesti scientifici articolati
Caratteristiche distintive
Il modello si distingue per:
- Elevata capacità di comprensione contestuale
- Precisione nell’interpretazione di sfumature semantiche
- Capacità di gestire dipendenze dal contesto
Il suo punto di forza risiede nella capacità di andare oltre l’interpretazione letterale, cogliendo significati impliciti e relazioni semantiche complesse in diversi domini applicativi.
I prossimi passi
La scalabilità dei dati e delle dimensioni dei modelli non solo mostra i progressi nell’intelligenza dei modelli, ma riflette anche il costante impegno nella ricerca pionieristica. Alibaba si dichiara impegnata a migliorare le capacità di pensiero e di ragionamento dei modelli linguistici di grandi dimensioni attraverso l’applicazione innovativa dell’apprendimento per rinforzo scalare. Questo impegno promette di consentire ai suoi modelli di trascendere l’intelligenza umana.
Qwen 2.5-Max e la censura governativa
Qwen 2.5-Max di Alibaba, al contrario di DeepSeek-R1, sembra affrontare argomenti scottanti per le autorità cinesi in maniera diversa. Ad esempio, Alibaba risponde a domande sugli eventi di Piazza Tiananmen senza limitazioni, menzionando persino la “rigorosa censura imposta dal governo cinese su questi eventi” nelle sue risposte.
Dove vanno a finire i dati?
L’utilizzo di AI cinesi come DeepSeek e Qwen solleva inquietanti interrogativi sulla privacy e la sicurezza dei dati degli utenti. Gli input testuali o audio, i file caricati, i feedback e la cronologia delle chat vengono infatti archiviati su server che sono fisicamente situati nella Repubblica Popolare Cinese.
Esistono quindi serie preoccupazioni riguardo alla possibilità che i dati raccolti dalle AI possano essere condivisi con il governo cinese, in conformità con le leggi del paese sulla sicurezza informatica, che obbligano le aziende a fornire dati alle autorità su richiesta.
La famiglia Qwen 2.5, prestazioni e innovazioni
Attualmente si sta assistendo a un importante trend verso i Small Language Model (SLM), contrapposti ai LLM (Large Language Model). Il divario prestazionale con i Large Language Model si sta rapidamente riducendo. Modelli con soli 3 miliardi di parametri stanno ottenendo risultati molto competitivi. Il modello Qwen2.5-3B ne è un esempio, dimostrando prestazioni notevoli, nonostante le dimensioni ridotte.
Miglioramenti post-training
Gli sviluppatori hanno raffinato le metodologie post-training con quattro aggiornamenti chiave:
- supporto per generazione di testi lunghi fino a 8K token
- migliorata comprensione di dati strutturati
- generazione più affidabile di output strutturati (specialmente in formato JSON)
- migliorate prestazioni su diversi prompt di sistema per facilitare il role-playing.
Alibaba, un nuovo colosso dell’AI
Fondata nel 1999 da Jack Ma, Alibaba è partita come un marketplace B2B per mettere in contatto i produttori cinesi con gli acquirenti internazionali. Nel corso degli anni, l’azienda ha ampliato la sua gamma di servizi con il lancio di Taobao, una piattaforma rivolta ai consumatori, e Alipay, un sistema di pagamento digitale che ha trasformato il mercato finanziario cinese.
Negli ultimi dieci anni, Alibaba ha ampliato le sue operazioni nel cloud computing, nell’intelligenza artificiale e nella logistica, affermandosi come un gigante tecnologico globale.
Chi è Jack Ma, il visionario dietro Alibaba
Nato nel 1964 a Hangzhou, Jack Ma è uno degli imprenditori più carismatici e influenti della Cina. Dopo aver iniziato la sua carriera come insegnante di inglese, ha fondato Alibaba con l’intento di utilizzare Internet come strumento di crescita per le piccole imprese cinesi. Jack Ma ha lasciato la guida dell’azienda all’inizio del 2023. Eddie Wu, l’attuale CEO della multinazionale, sta puntando con decisione sull’intelligenza artificiale e sul cloud computing.
La corsa all’AI tra Cina e Stati Uniti
Lo sviluppo rapido dei modelli di intelligenza artificiale cinesi sta intensificando la competizione con gli Stati Uniti. I risultati ottenuti da DeepSeek nel campo dell’addestramento dell’intelligenza artificiale hanno avuto un impatto sui mercati finanziari.
In una recente intervista, l’ex presidente Donald Trump ha definito l’ascesa di DeepSeek come un “campanello d’allarme” per le aziende americane, sottolineando la necessità di maggiori investimenti nell’intelligenza artificiale per mantenere il vantaggio competitivo.