OpenAI ha rilasciato o3-mini, a pochi giorni dall’arrivo del modello cinese DeepSeek-R1 e dei suoi “distillati”. OpenAI o3-mini è il modello più recente ed economico della serie di modelli di ragionamento, disponibile sia in ChatGPT che nelle API. Presentato in anteprima nel dicembre del 2024, questo modello supera i limiti di ciò che i modelli di piccole dimensioni possono raggiungere, offrendo ottime capacità STEM – con particolare forza nelle scienze, nella matematica e nella codifica – il tutto mantenendo il basso costo e la ridotta latenza di OpenAI o1-mini.
Indice degli argomenti:
OpenAI o3-mini, tre livelli di “sforzo di ragionamento”
OpenAI o3-mini è il nostro primo modello di ragionamento di piccole dimensioni che supporta le caratteristiche più richieste dagli sviluppatori, come la chiamata di funzioni, gli output strutturati e i messaggi degli sviluppatori, rendendolo pronto per la produzione fin da subito.
Come OpenAI o1-mini e OpenAI o1-preview, o3-mini supporterà lo streaming. Inoltre, per la prima volta gli sviluppatori possono scegliere tra tre opzioni di sforzo di ragionamento – basso, medio e alto – per ottimizzare i loro casi d’uso specifici. Questa flessibilità consente a o3-mini di “pensare più intensamente” quando si affrontano sfide complesse o di dare priorità alla velocità quando la latenza è un problema.
o3-mini non supporta le funzionalità di visione, quindi gli sviluppatori dovrebbero continuare a utilizzare OpenAI o1 per le attività di ragionamento visivo.
o3-mini è in fase di lancio nelle API di completamento delle chat, nelle API degli assistenti e nelle API Batch per alcuni sviluppatori selezionati nei livelli di utilizzo delle API 3-5.
Per la prima volta un modello di ragionamento disponibile agli utenti gratuiti di ChatGPT
Gli utenti di ChatGPT Plus, Team e Pro possono già accedere a OpenAI o3-mini , mentre l’accesso Enterprise arriverà entro il mese di febbraio.
o3-mini sostituirà OpenAI o1-mini nel model picker, offrendo limiti di velocità più elevati e una latenza più bassa, il che lo rende ideale per le attività di codifica, STEM e risoluzione di problemi logici.
Come parte di questo aggiornamento, OpenAI sta triplicando il limite di velocità per gli utenti Plus e Team, passando da 50 messaggi al giorno con o1-mini a 150 messaggi al giorno con o3-mini.
Inoltre, o3-mini funziona con la ricerca per trovare risposte aggiornate con collegamenti a fonti web pertinenti. Si tratta di un primo prototipo.
Gli utenti del piano gratuito possono provare OpenAI o3-mini selezionando “Ragiona” nel compositore di messaggi o rigenerando una risposta. È la prima volta che un modello di ragionamento viene reso disponibile agli utenti gratuiti di ChatGPT.
Gli utenti a pagamento hanno la possibilità di selezionare o3-mini-high
Mentre OpenAI o1 rimane il modello di ragionamento di conoscenza generale più ampio, OpenAI o3-mini fornisce un’alternativa specializzata per i domini tecnici che richiedono precisione e velocità. In ChatGPT, o3-mini utilizza uno sforzo di ragionamento medio per fornire un compromesso equilibrato tra velocità e precisione. Tutti gli utenti a pagamento avranno anche la possibilità di selezionare o3-mini-high nel model picker per una versione a più alta intelligenza che richiede un po’ più di tempo per generare le risposte. Gli utenti Pro avranno accesso illimitato sia a o3-mini che a o3-mini-high.
OpenAI o3-mini è ottimizzato per il ragionamento STEM
Come il suo predecessore OpenAI o1, OpenAI o3-mini è stato ottimizzato per il ragionamento STEM. o3-mini, con uno sforzo di ragionamento medio, eguaglia le prestazioni di o1 in matematica, codifica e scienze, fornendo risposte più veloci. Le valutazioni di tester esperti hanno dimostrato che o3-mini produce risposte più accurate e chiare, con capacità di ragionamento più forti, rispetto a OpenAI o1-mini. I tester hanno preferito le risposte di o3-mini a quelle di o1-mini nel 56% dei casi e hanno osservato una riduzione del 39% degli errori principali su domande difficili del mondo reale. Con uno sforzo di ragionamento medio, o3-mini eguaglia le prestazioni di o1 in alcune delle più impegnative valutazioni di ragionamento e intelligenza, tra cui AIME e GPQA.
Competizione matematica (AIME 2024)

PhD-level Science Questions (GPQA Diamond)

FrontierMath

Competition Code (Codeforces)

Software Engineering (SWE-bench Verified)

LiveBench Coding

General knowledge

Human Preference Evaluation


Velocità e prestazioni del modello
Con un’intelligenza paragonabile a quella di OpenAI o1, OpenAI o3-mini offre prestazioni più veloci e una maggiore efficienza. Oltre alle valutazioni STEM evidenziate sopra, o3-mini dimostra risultati superiori in altre valutazioni matematiche e di fattualità con uno sforzo di ragionamento medio.
Nei test A/B, o3-mini ha fornito risposte più veloci del 24% rispetto a o1-mini, con un tempo medio di risposta di 7,7 secondi rispetto a 10,16 secondi.
Confronto della latenza tra o1-mini e o3-mini (media)

Sicurezza
Una delle tecniche chiave utilizzata per insegnare a OpenAI o3-mini a rispondere in modo sicuro è l’allineamento deliberativo, in cui è stato addestrato il modello a ragionare sulle specifiche di sicurezza scritte dall’uomo prima di rispondere alle richieste dell’utente. Come OpenAI o1, si è scoperto che o3-mini supera in modo significativo GPT-4o nelle valutazioni di sicurezza e jailbreak. Prima della distribuzione, sono stati valutati attentamente i rischi di sicurezza di o3-mini utilizzando lo stesso approccio di preparazione, red-teaming esterno e valutazioni di sicurezza di o1.
I dettagli delle valutazioni che seguono, insieme a una spiegazione completa dei rischi potenziali e dell’efficacia delle mitigazioni, sono disponibili nella scheda di sistema di o3-mini.
Valutazioni dei contenuti non consentite

Valutazioni sul jailbreak

La risposta di OpenAI ai modelli di ragionamento “economici” cinesi
Il rilascio di OpenAI o3-mini segna un altro passo avanti nella missione di OpenAI di superare i confini dell‘intelligenza a basso costo. Questo modello continua il percorso di riduzione del costo dell’intelligenza – riducendo i prezzi per token del 95% dal lancio di GPT-4 – pur mantenendo capacità di ragionamento di alto livello.
Con o3-mini, OpenAI ha voluto dimostrare di non essere da meno dei cinesi di DeepSeel e Alibaba nello sviluppare modelli di ragionamento di piccole dimensioni ed elevate prestazioni. La competizione fra Usa e Cina sul fronte dei modelli di linguaggio e di ragionamento si fa sempre più agguerrita.