AI GENERATIVA

Arriva Grok-2 di xAI e nei benchmark supera tutti gli altri LLM



Indirizzo copiato

Integrato all’interno del social network X è disponibile attraverso i livelli di abbonamento Premium e Premium+ in due versioni: Grok-2 e Grok-2 mini. Batte GPT-4o, Claude 3.5 Sonnet e Gemini Pro 1.5 nei principali test di benchmark di terze parti

Pubblicato il 16 ago 2024



Grok-2

Grok-2 è arrivato il 14 agosto 2024, come previsto dagli aggiornamenti e dalle nuove impostazioni dell’applicazione mobile del social network xAI di Elon Musk. Il nuovo modello linguistico di grandi dimensioni (LLM) è integrato all’interno di X e disponibile attraverso i livelli di abbonamento Premium (7 dollari al mese) e Premium+ (14 dollari al mese senza pubblicità), Grok-2 è disponibile in due dimensioni: Grok-2 e Grok-2 mini.

Grok-2 offre prestazioni all’avanguardia in un’ampia gamma di attività, tra cui chat, codifica, ragionamento e applicazioni basate sulla visione, mentre Grok-2 mini è una versione più piccola e veloce ottimizzata per l’efficienza, adatta a richieste più semplici basate sul testo che richiedono risposte più rapide.


Grok-2 batte i concorrenti nei principali test di terze parti


Grok-2 non solo vanta capacità di generazione di immagini basate su una partnership con Black Forest Labs e il suo nuovo e fotorealistico modello di Ai open-source di diffusione Flux.1, ma supera in modo sorprendente i modelli di Ai dei principali rivali, tra cui OpenAI (GPT-4o) e Anthropic (Claude 3.5 Sonnet) e persino Google (Gemini Pro 1.5) nei principali test di benchmark di terze parti.

Grok-2
Grafico che confronta le prestazioni di Grok-2 mini e Grok-2 con quelle di altri LLM di frontiera di aziende concorrenti. Credito: xAI


In particolare, Grok-2 e Grok-2 mini superano tutti gli altri modelli nei benchmark GPQA, MMLU, MMLU-Pro, MATH, HumanEval, MMMU, MathVista e DocVQA.
Anche l’arena lmsys-chatbot, dove molte aziende testano segretamente i loro modelli di AI con nomi alternativi prima del rilascio (tra cui xAI, dove Grok-2 è stato inizialmente chiamato “sus-column-r”) si è congratulata con xAI per la pietra miliare.


Come ha osservato Ethan Mollick, influencer dell’AI e professore della Wharton School of Business dell’Università della Pennsylvania, su xAI, “Ora ci sono cinque modelli di classe GPT-4: GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1 e ora Grok 2”.
Musk si è congratulato con il suo “laborioso team xAI!” sul social network dal nome simile.


La generazione di immagini è il punto di forza


Anche se Grok-2 vanta prestazioni di primo piano in tutti questi benchmark relativi alla matematica, alla scrittura, al codice e ad altri compiti, la caratteristica di gran lunga più importante che ha catturato l’attenzione è la sua integrazione con il modello di generazione di immagini Flux.1 di Black Forest Labs.
Prima del rilascio di Grok-2, Flux.1 aveva già fatto scalpore nei circoli dell’intelligenza artificiale e dell’arte dell’intelligenza artificiale, in particolare nelle ultime settimane, quando si è scoperto che dal modello open source si potevano ottenere generazioni incredibilmente fotorealistiche, tanto da assomigliare a situazioni familiari come un oratore a un discorso TED, nonché adattare il modello utilizzando l’adattamento a basso range (LoRA) per generare la propria somiglianza in situazioni diverse.


Ora che una versione di Flux.1 è integrata direttamente in Grok-2, allo stesso modo in cui OpenAI ha integrato il suo modello di generazione di immagini DALL-E 3 direttamente in ChatGPT, consentendo agli utenti di digitare semplicemente richieste di testo al chatbot e chiedergli di creare le loro immagini a comando, gli utenti stanno testando questa capacità in Grok-2 e scoprono che è notevolmente permissiva – generando immagini controverse e compromettenti anche di personaggi pubblici come i candidati presidenziali americani Kamala Harris e Donald Trump…
Altri importanti generatori di immagini, tra cui Midjourney e DALL-E 3 e Microsoft Designer, prevedono divieti per la generazione di questo tipo di contenuti – soprattutto sulla scia delle polemiche sorte all’inizio di quest’anno per i deepfake espliciti e non autorizzati della popolare musicista Taylor Swift (realizzati da prompt engineering aggirando le restrizioni di Designer) – quindi è notevole che Grok-2 sia in controtendenza e permetta una maggiore libertà, e un potenziale rischio.

Tuttavia, questo è in linea con l’etica della “libertà di parola” dichiarata da Musk per X.
Tuttavia, gli utenti stanno sollevando preoccupazioni su cosa significhi questa capacità per la diffusione di deepfake e disinformazione sul web.

Costruire con Grok utilizzando l’API aziendale


Nel corso del mese di agosto, xAI rilascerà Grok-2 e Grok-2 mini agli sviluppatori attraverso la nuova piattaforma API aziendale. La prossima API è costruita su un nuovo stack tecnologico su misura che consente distribuzioni di inferenze multiregionali per un accesso a bassa latenza in tutto il mondo. Offre funzioni di sicurezza migliorate, come l’autenticazione obbligatoria a più fattori (ad esempio utilizzando Yubikey, Apple TouchID o TOTP), ricche statistiche sul traffico e analisi avanzate della fatturazione (compresa l’esportazione dettagliata dei dati). Offre inoltre un’API di gestione che consente di integrare la gestione di team, utenti e fatturazione negli strumenti e servizi interni esistenti.

I prossimi passi di Grok-2

Grok-2 e Grok-2 mini sono in fase di lancio su 𝕏. Presto sarà rilasciata un’anteprima della comprensione multimodale come parte integrante dell’esperienza Grok su 𝕏 e sulle API.

Da quando è stato annunciato Grok-1, nel novembre 2023, xAI si è mossa a un ritmo forsennato, guidata da un piccolo team con la massima densità di talenti. Ora ha introdotto Grok-2, posizionandosi all’avanguardia nello sviluppo dell’AI. D’ora in poi si concentrerà sul miglioramento delle capacità di ragionamento di base con il nuovo cluster di calcolo.

Articoli correlati

Articolo 1 di 3