AI GENERATIVA

Mistral AI presenta Mixtral 8X7B, modello linguistico che punta al primato nell’open source

La startup francese specializzata in AI dichiara che il suo nuovo modello, con open-weights, supera Llama 2 e GPT-3.5 nella maggior parte dei benchmark

Pubblicato il 21 dic 2023

Pierluigi Sandonnini

giornalista

Mixtral 8x7B, il nuovo modello linguistico di Mistral AI, è rilasciato con open-weights ed è multilingue, supportando diverse lingue tra cui l’italiano e l’inglese. Ha una lunghezza di contesto di 32.000 token e supera il modello Llama 2 da 70 miliardi di parametri e GPT-3.5 di OpenAI sulla maggior parte delle metriche. È in grado di generare codice e rispondere alle interrogazioni in modo molto coerente.
Mixtral 8x7B utilizza un’architettura Mixture of Experts (MoE), che consente l’uso selettivo di un piccolo sottoinsieme di esperti per ogni decisione, migliorando così l’efficienza computazionale. Questo approccio riduce i costi e la latenza, permettendo di gestire modelli di grandi dimensioni con risorse computazionali ridotte.
Mixtral 8x7B è distribuito con la licenza Apache 2.0, che permette un uso commerciale gratuito e la modifica del codice sorgente. Questo modello open-source rappresenta un’alternativa ai modelli “black box” come ChatGPT, offrendo maggiore trasparenza e controllo. La strategia di Mistral AI combina l’approccio open-source con l’accesso alle API a pagamento.

La startup francese Mistral AI ha presentato il suo ultimo modello linguistico, Mixtral 8x7B che, a suo dire, stabilisce nuovi standard per le prestazioni open source.

Rilasciato con open-weights, Mixtral 8x7B supera il modello da 70 miliardi di parametri di Llama 2 sulla maggior parte dei benchmark, con un’inferenza sei volte più veloce, e supera anche GPT-3.5 di OpenAI sulla maggior parte delle metriche, secondo la startup.

Indice degli argomenti:

Mixtral 8x7B, 32mila token, multilingue, genera codice

Mixtral 8x7B ha una lunghezza di contesto di 32k token (circa 24.000 parole) ed è multilingue, supportando inglese, spagnolo, francese, italiano e tedesco. Dispone anche di capacità di generazione di codice ed è abile nel rispondere alle interrogazioni in modo profondamente coerente, ottenendo un punteggio di 8,3 sul MT-Bench, paragonabile a quello di GPT-3,5.

“Mixtral è un modello aperto, il che è entusiasmante rispetto a modelli ‘black box’ come la famiglia di modelli ChatGPT”, ha dichiarato in un’intervista Jignesh Patel, professore di informatica alla Carnegie Mellon University e cofondatore di DataChat, una piattaforma di AI generativa senza codice.

“È possibile utilizzare un modello open-weights in una gamma più ampia di applicazioni, comprese quelle in cui l’impacchettamento del modello con un sistema più grande in un unico ambiente è essenziale per considerazioni sulla privacy, tra cui la protezione della fuga di dati verso il modello quando lo si utilizza e la non divulgazione del modello di accesso all’utilizzo.”

Mixtral 8x7B è stato addestrato su dati provenienti da Internet. È distribuito con la licenza Apache 2.0, il che significa che può essere utilizzato gratuitamente a livello commerciale. Gli sviluppatori possono anche alterare, copiare o aggiornare il codice sorgente e distribuirlo insieme a una copia della licenza.

Mixtral 8x7B, un mix di esperti specializzati (Mixture of Experts – MoE)

Il modello Mixtral 8x7B impiega un approccio architettonico unico che è stato oggetto di discussione per molti decenni, ma che solo ora viene implementato su larga scala in modelli linguistici di grandi dimensioni, ha detto Patel. La sua architettura interna comprende un numero limitato di esperti, ciascuno specializzato in determinati compiti.

Chiamata Mixture of Experts (MoE), questa miscela di tecniche esperte produce risposte omogenee e simili a quelle umane. Questo metodo contrasta con l’approccio LLM convenzionale, che in genere si affida a un singolo esperto completo. L’analogia è simile al processo decisionale di un comitato ben informato e con competenze diverse, invece di affidarsi a un unico decisore in un’organizzazione.

“In Mixtral, questo modello di miscela di esperti consente l’uso selettivo di un piccolo sottoinsieme di questi esperti (spesso solo due su otto) per le singole decisioni”, ha aggiunto Patel. “Questo approccio presenta diversi vantaggi tecnici: è più conveniente in termini di risorse computazionali per sviluppare e distribuire questi modelli. Considerando le spese attualmente elevate associate alla costruzione e al funzionamento dei modelli GenAI, questa riduzione dei costi è fondamentale per un’ampia adozione di questa tecnologia”.

In termini più tecnici, Mixtral 8x7B impiega una rete MoE sparsa ed è un modello di sola decodifica in cui il “blocco feedforward sceglie da un insieme di 8 gruppi distinti di parametri. A ogni livello, per ogni token, una rete di percorso sceglie due di questi gruppi (esperti) per elaborare il token e combinare i loro output in modo additivo”, secondo la startup.

Secondo la startup, questo aumenta il numero di parametri di un modello pur controllando i costi e la latenza, poiché utilizza solo una “frazione” del set totale di parametri per ogni token. Ad esempio, Mixtral 8x7B ha 46,7 miliardi di parametri ma ne utilizza solo 12,9 miliardi per token.

Mixtral 8x7B, bias e accuratezza

La startup francese ha dichiarato che Mixtral 8x7B è più veritiero (73,9% contro 50,2% nel benchmark TruthQA) e meno distorto di Llama 2 (metriche BBQ/BOLD). Tuttavia, chiede agli sviluppatori di aggiungere dei messaggi di sistema per vietare gli output tossici. Senza queste protezioni, il modello si limiterà a seguire le istruzioni.

Immagine che contiene testo, schermata, Carattere, numeroDescrizione generata automaticamente

Mentre Mixtral 8x7B si comporta bene rispetto a GPT-3.5, GPT-4 di OpenAI continua a primeggiare nella maggior parte delle categorie di prestazioni, osserva Bob Brauer, amministratore delegato di Interzoid, una società di consulenza sull’usabilità dei dati, in un’intervista. Entrambi i modelli GPT sono di tipo close-sourced.

Tuttavia, un vantaggio significativo dell’approccio di Mixtral 8x7B è che aumenta la capacità del modello senza aumentare proporzionalmente i requisiti computazionali, ottenendo in definitiva prestazioni elevate in termini di velocità di risposta. “Questo è fondamentale per le organizzazioni che gestiscono modelli open-source sulla propria infrastruttura, in quanto offre un modo più efficiente dal punto di vista delle risorse per gestire attività di AI su larga scala”, ha affermato Brauer.

Una miscela di modelli

“Mixtral 8x7B è una miscela di modelli di business”, afferma Brauer. Adotta un approccio di tipo open-source, nel senso che i pesi della rete neurale che costituiscono il suo modello sono accessibili, consentendo di scaricare il modello sul proprio hardware per la sperimentazione e l’uso, in modo simile ai modelli LaMa di Meta, che offrono anch’essi un uso gratuito.

Tuttavia, Mixtral offre anche l’accesso alle API a pagamento, per coloro che desiderano accedere rapidamente e facilmente alle sue funzionalità senza dover gestire l’infrastruttura di supporto, in modo simile ai modelli ChatGPT di OpenAI e Claude di Anthropic.

“La strategia di Mistral AI mira chiaramente a un approccio ibrido, ‘il meglio dei due mondi’”, ha aggiunto.

“Il software open-source è stato una manna per la comunità informatica per decenni”, commenta Patel. Per esempio, Linux, il sistema operativo che alimenta la maggior parte delle macchine basate su cloud, è anche la spina dorsale per l’addestramento di grandi modelli linguistici (LLM).

“Senza l’open source, molti progressi nel campo dell’informatica sarebbero stati molto più lenti”, ha detto Patel. “Con l’open source c’è molta più concorrenza e la velocità dell’innovazione è maggiore. Inoltre, la barriera d’ingresso per chi vuole entrare nel settore è molto più bassa se è disponibile un software open source di alta qualità. Questo tipo di democratizzazione della creazione e dell’apprendimento per i nuovi operatori del settore è fondamentale”.

@RIPRODUZIONE RISERVATA