news

Ecco Grok-1.5, il nuovo modello di xAI per il ragionamento avanzato

Il modello è in grado di comprendere contesti lunghi fino a 128K token all’interno della sua finestra contestuale e di ragionamento avanzato. Sarà disponibile per i tester iniziali e gli utenti Grok esistenti sulla piattaforma 𝕏

Pubblicato il 29 mar 2024

Redazione

Xai presenta Grok-1.5, modello capace di comprendere contesti lunghi e di ragionamento avanzato. Grok-1.5 sarà disponibile per i tester iniziali e gli utenti Grok esistenti sulla piattaforma 𝕏.

Indice degli argomenti:

Grok 1.5 ottiene un punteggio del 50,6% sul benchmark MATH e 90% su GSM8K

Alla metà di marzo, con la pubblicazione dei pesi del modello e dell’architettura della rete di Grok-1, Xai ha offerto un assaggio dei progressi che fatti fino allo scorso novembre. Da allora, ha migliorato le capacità di ragionamento e risoluzione dei problemi nel suo ultimo modello, Grok-1.5.

Uno dei miglioramenti più notevoli di Grok-1.5 è la sua performance nelle attività legate alla codifica e alla matematica. Nei test, Grok-1.5 ha ottenuto un punteggio del 50,6% sul benchmark MATH e del 90% sul benchmark GSM8K, due benchmark matematici che coprono una vasta gamma di problemi da competizioni scolastiche elementari a superiori. Inoltre, ha ottenuto il 74,1% sul benchmark HumanEval, che valuta le capacità di generazione del codice e risoluzione dei problemi.

Comprensione del contesto lungo

Una nuova caratteristica di Grok-1.5 è la capacità di elaborare contesti lunghi fino a 128K token all’interno della sua finestra contestuale. Questo permette a Grok di avere una capacità di memoria aumentata fino a 16 volte la lunghezza del contesto precedente, consentendogli di utilizzare informazioni da documenti notevolmente più lunghi. Inoltre, il modello può gestire prompt più lunghi e complessi, mantenendo ancora la sua capacità di seguire le istruzioni man mano che la sua finestra contestuale si espande.

Nella valutazione Needle In A Haystack (NIAH), Grok-1.5 ha dimostrato potenti capacità di recupero per il testo incorporato all’interno di contesti fino a 128K token di lunghezza, ottenendo risultati perfetti nel recupero.

Infrastruttura Grok-1.5

La ricerca all’avanguardia sui Large Language Model (LLM) che funziona su enormi cluster GPU richiede un’infrastruttura robusta e flessibile. Grok-1.5 è costruito su un framework personalizzato per l’addestramento distribuito basato su JAX, Rust e Kubernetes. Questo stack di addestramento permette al team di prototipare idee e addestrare nuove architetture su larga scala con uno sforzo minimo.

Una grande sfida nell’addestramento degli LLM su grandi cluster di calcolo è massimizzare l’affidabilità e il tempo operativo del lavoro di addestramento. L’orchestratore personalizzato per l’addestramento garantisce che i nodi problematici vengano automaticamente rilevati ed espulsi dal lavoro di addestramento. Xai ha anche ottimizzato il checkpointing, il caricamento dei dati e i riavvii del lavoro di addestramento per minimizzare i tempi di inattività in caso di guasto.

Il futuro di Grok

Grok-1.5 sarà presto disponibile per i tester iniziali e nuove funzionalità saranno inserite nei prossimi giorni.

xAI si definisce un’azienda che lavora alla costruzione di un’intelligenza artificiale per accelerare la scoperta scientifica umana.

Il team è guidato da Elon Musk, CEO di Tesla e SpaceX e ha esperienze presso DeepMind, OpenAI, Google Research, Microsoft Research, Tesla e l’Università di Toronto. Ha introdotto tecniche e analisi innovative come Transformer-XL, Autoformalization, Memorizing Transformer, Batch Size Scaling, μTransfer e SimCLR. Ha lavorato e guidato lo sviluppo di alcune delle più grandi innovazioni nel settore, tra cui AlphaStar, AlphaCode, Inception, Minerva, GPT-3.5 e GPT-4.

Nota

I punteggi GPT-4 sono presi dal rilascio di marzo 2023. Per MATH e GSM8K, presentiamo i risultati maj@1. Per HumanEval, riportiamo i punteggi del benchmark pass@1.

@RIPRODUZIONE RISERVATA

Redazione

Argomenti

Canali

Ecco Grok-1.5, il nuovo modello di xAI per il ragionamento avanzato

Grok 1.5 ottiene un punteggio del 50,6% sul benchmark MATH e 90% su GSM8K

Comprensione del contesto lungo

Infrastruttura Grok-1.5

Il futuro di Grok

Redazione

Leggi anche:

Articoli correlati

Grok-2: nuove prestazioni e funzionalità nel modello gratuito di xAI

Codice Rss

Codice Rss