approfondimento

OpenAI lancia o3-mini, anche gratuito. La risposta a DeepSeek



Indirizzo copiato

È la prima volta che un modello di ragionamento viene reso disponibile agli utenti gratuiti di ChatGPT. Questo modello supera i limiti di ciò che i modelli di piccole dimensioni possono raggiungere, offrendo ottime capacità STEM – particolarmente in scienze, matematica e codifica – il tutto mantenendo il basso costo e la ridotta latenza di OpenAI o1-mini

Pubblicato il 1 feb 2025



o3-mini OpenAi

OpenAI ha rilasciato o3-mini, a pochi giorni dall’arrivo del modello cinese DeepSeek-R1 e dei suoi “distillati”. OpenAI o3-mini è il modello più recente ed economico della serie di modelli di ragionamento, disponibile sia in ChatGPT che nelle API. Presentato in anteprima nel dicembre del 2024, questo modello supera i limiti di ciò che i modelli di piccole dimensioni possono raggiungere, offrendo ottime capacità STEM – con particolare forza nelle scienze, nella matematica e nella codifica – il tutto mantenendo il basso costo e la ridotta latenza di OpenAI o1-mini.

OpenAI o3-mini, tre livelli di “sforzo di ragionamento”

OpenAI o3-mini è il nostro primo modello di ragionamento di piccole dimensioni che supporta le caratteristiche più richieste dagli sviluppatori, come la chiamata di funzioni, gli output strutturati e i messaggi degli sviluppatori, rendendolo pronto per la produzione fin da subito.

Come OpenAI o1-mini e OpenAI o1-preview, o3-mini supporterà lo streaming. Inoltre, per la prima volta gli sviluppatori possono scegliere tra tre opzioni di sforzo di ragionamento – basso, medio e alto – per ottimizzare i loro casi d’uso specifici. Questa flessibilità consente a o3-mini di “pensare più intensamente” quando si affrontano sfide complesse o di dare priorità alla velocità quando la latenza è un problema.

o3-mini non supporta le funzionalità di visione, quindi gli sviluppatori dovrebbero continuare a utilizzare OpenAI o1 per le attività di ragionamento visivo.

o3-mini è in fase di lancio nelle API di completamento delle chat, nelle API degli assistenti e nelle API Batch per alcuni sviluppatori selezionati nei livelli di utilizzo delle API 3-5.

Per la prima volta un modello di ragionamento disponibile agli utenti gratuiti di ChatGPT

Gli utenti di ChatGPT Plus, Team e Pro possono già accedere a OpenAI o3-mini , mentre l’accesso Enterprise arriverà entro il mese di febbraio.

o3-mini sostituirà OpenAI o1-mini nel model picker, offrendo limiti di velocità più elevati e una latenza più bassa, il che lo rende ideale per le attività di codifica, STEM e risoluzione di problemi logici.

Come parte di questo aggiornamento, OpenAI sta triplicando il limite di velocità per gli utenti Plus e Team, passando da 50 messaggi al giorno con o1-mini a 150 messaggi al giorno con o3-mini.

Inoltre, o3-mini funziona con la ricerca per trovare risposte aggiornate con collegamenti a fonti web pertinenti. Si tratta di un primo prototipo.

Gli utenti del piano gratuito possono provare OpenAI o3-mini selezionando “Ragiona” nel compositore di messaggi o rigenerando una risposta. È la prima volta che un modello di ragionamento viene reso disponibile agli utenti gratuiti di ChatGPT.

Gli utenti a pagamento hanno la possibilità di selezionare o3-mini-high

Mentre OpenAI o1 rimane il modello di ragionamento di conoscenza generale più ampio, OpenAI o3-mini fornisce un’alternativa specializzata per i domini tecnici che richiedono precisione e velocità. In ChatGPT, o3-mini utilizza uno sforzo di ragionamento medio per fornire un compromesso equilibrato tra velocità e precisione. Tutti gli utenti a pagamento avranno anche la possibilità di selezionare o3-mini-high nel model picker per una versione a più alta intelligenza che richiede un po’ più di tempo per generare le risposte. Gli utenti Pro avranno accesso illimitato sia a o3-mini che a o3-mini-high.

OpenAI o3-mini è ottimizzato per il ragionamento STEM

Come il suo predecessore OpenAI o1, OpenAI o3-mini è stato ottimizzato per il ragionamento STEM. o3-mini, con uno sforzo di ragionamento medio, eguaglia le prestazioni di o1 in matematica, codifica e scienze, fornendo risposte più veloci. Le valutazioni di tester esperti hanno dimostrato che o3-mini produce risposte più accurate e chiare, con capacità di ragionamento più forti, rispetto a OpenAI o1-mini. I tester hanno preferito le risposte di o3-mini a quelle di o1-mini nel 56% dei casi e hanno osservato una riduzione del 39% degli errori principali su domande difficili del mondo reale. Con uno sforzo di ragionamento medio, o3-mini eguaglia le prestazioni di o1 in alcune delle più impegnative valutazioni di ragionamento e intelligenza, tra cui AIME e GPQA.

Competizione matematica (AIME 2024)

OpenAI o3-mini
Matematica: Con un basso sforzo di ragionamento, OpenAI o3-mini raggiunge prestazioni paragonabili a quelle di OpenAI o1-mini, mentre con uno sforzo medio, o3-mini raggiunge prestazioni paragonabili a quelle di o1. Con un elevato sforzo di ragionamento, invece, o3-mini supera sia OpenAI o1-mini sia OpenAI o1, dove le regioni ombreggiate in grigio mostrano le prestazioni del voto di maggioranza (consenso) con 64 campioni.

PhD-level Science Questions (GPQA Diamond)

OpenAI o3-mini
Scienza a livello di dottorato: Su domande di biologia, chimica e fisica di livello dottorale, con un basso sforzo di ragionamento, OpenAI o3-mini raggiunge prestazioni superiori a OpenAI o1-mini. Con uno sforzo elevato, o3-mini raggiunge prestazioni paragonabili a quelle di o1.

FrontierMath

OpenAI o3-mini
Matematica a livello di ricerca: OpenAI o3-mini con elevato sforzo di ragionamento si comporta meglio del suo predecessore su FrontierMath. Su FrontierMath, quando viene richiesto l’uso di uno strumento Python, o3-mini con elevato sforzo di ragionamento risolve oltre il 32% dei problemi al primo tentativo, compreso oltre il 28% dei problemi impegnativi (T3). Questi numeri sono provvisori e il grafico sopra mostra le prestazioni senza strumenti o calcolatrice.

Competition Code (Codeforces)

OpenAI o3-mini
Codifica competitiva: Nella programmazione competitiva di Codeforces, OpenAI o3-mini ottiene punteggi Elo progressivamente più alti con l’aumento dello sforzo di ragionamento, superando sempre o1-mini. Con uno sforzo di ragionamento medio, eguaglia le prestazioni di o1.

Software Engineering (SWE-bench Verified)

OpenAI o3-mini
Ingegneria del software: o3-mini è il nostro modello più performante rilasciato su SWEbench-verified. Per ulteriori dati sui risultati di SWE-bench Verified con un elevato sforzo di ragionamento, anche con lo scaffold Agentless open-source (39%) e uno scaffold di strumenti interni (61%), vedere la scheda di sistema.

LiveBench Coding

OpenAI o3-mini
Codifica LiveBench: OpenAI o3-mini supera o1-high anche a medio sforzo di ragionamento, evidenziando la sua efficienza nei compiti di codifica. Con uno sforzo di ragionamento elevato, o3-mini estende ulteriormente il suo vantaggio, ottenendo prestazioni significativamente superiori in tutte le metriche chiave.

General knowledge

OpenAI o3-mini
Conoscenza generale: o3-mini supera o1-mini nella valutazione della conoscenza nei domini di conoscenza generale.

Human Preference Evaluation

OpenAI o3-mini
OpenAI o3-mini
Valutazione delle preferenze umane: Anche le valutazioni di tester esterni esperti dimostrano che OpenAI o3-mini produce risposte più accurate e chiare, con capacità di ragionamento più forti rispetto a OpenAI o1-mini, soprattutto per le materie STEM. I tester hanno preferito le risposte di o3-mini a quelle di o1-mini nel 56% dei casi e hanno osservato una riduzione del 39% degli errori principali su domande difficili del mondo reale.

Velocità e prestazioni del modello

Con un’intelligenza paragonabile a quella di OpenAI o1, OpenAI o3-mini offre prestazioni più veloci e una maggiore efficienza. Oltre alle valutazioni STEM evidenziate sopra, o3-mini dimostra risultati superiori in altre valutazioni matematiche e di fattualità con uno sforzo di ragionamento medio.

Nei test A/B, o3-mini ha fornito risposte più veloci del 24% rispetto a o1-mini, con un tempo medio di risposta di 7,7 secondi rispetto a 10,16 secondi.

Confronto della latenza tra o1-mini e o3-mini (media)

OpenAI o3-mini
Latenza: o3-mini ha un tempo medio di 2500 ms più veloce per il primo token rispetto a o1-mini.

Sicurezza

Una delle tecniche chiave utilizzata per insegnare a OpenAI o3-mini a rispondere in modo sicuro è l’allineamento deliberativo, in cui è stato addestrato il modello a ragionare sulle specifiche di sicurezza scritte dall’uomo prima di rispondere alle richieste dell’utente. Come OpenAI o1, si è scoperto che o3-mini supera in modo significativo GPT-4o nelle valutazioni di sicurezza e jailbreak. Prima della distribuzione, sono stati valutati attentamente i rischi di sicurezza di o3-mini utilizzando lo stesso approccio di preparazione, red-teaming esterno e valutazioni di sicurezza di o1.

I dettagli delle valutazioni che seguono, insieme a una spiegazione completa dei rischi potenziali e dell’efficacia delle mitigazioni, sono disponibili nella scheda di sistema di o3-mini.

Valutazioni dei contenuti non consentite

OpenAI o3-mini

Valutazioni sul jailbreak

OpenAI o3-mini

La risposta di OpenAI ai modelli di ragionamento “economici” cinesi

Il rilascio di OpenAI o3-mini segna un altro passo avanti nella missione di OpenAI di superare i confini dell‘intelligenza a basso costo. Questo modello continua il percorso di riduzione del costo dell’intelligenza – riducendo i prezzi per token del 95% dal lancio di GPT-4 – pur mantenendo capacità di ragionamento di alto livello.

Con o3-mini, OpenAI ha voluto dimostrare di non essere da meno dei cinesi di DeepSeel e Alibaba nello sviluppare modelli di ragionamento di piccole dimensioni ed elevate prestazioni. La competizione fra Usa e Cina sul fronte dei modelli di linguaggio e di ragionamento si fa sempre più agguerrita.

Articoli correlati

Articolo 1 di 4