approfondimento

OpenAI lancia o3-mini, anche gratuito. La risposta a DeepSeek

È la prima volta che un modello di ragionamento viene reso disponibile agli utenti gratuiti di ChatGPT. Questo modello supera i limiti di ciò che i modelli di piccole dimensioni possono raggiungere, offrendo ottime capacità STEM – particolarmente in scienze, matematica e codifica – il tutto mantenendo il basso costo e la ridotta latenza di OpenAI o1-mini

Pubblicato il 1 feb 2025

Pierluigi Sandonnini

OpenAI ha rilasciato o3-mini, a pochi giorni dall’arrivo del modello cinese DeepSeek-R1 e dei suoi “distillati”. OpenAI o3-mini è il modello più recente ed economico della serie di modelli di ragionamento, disponibile sia in ChatGPT che nelle API. Presentato in anteprima nel dicembre del 2024, questo modello supera i limiti di ciò che i modelli di piccole dimensioni possono raggiungere, offrendo ottime capacità STEM – con particolare forza nelle scienze, nella matematica e nella codifica – il tutto mantenendo il basso costo e la ridotta latenza di OpenAI o1-mini.

Indice degli argomenti:

OpenAI o3-mini, tre livelli di “sforzo di ragionamento”

OpenAI o3-mini è il nostro primo modello di ragionamento di piccole dimensioni che supporta le caratteristiche più richieste dagli sviluppatori, come la chiamata di funzioni, gli output strutturati e i messaggi degli sviluppatori, rendendolo pronto per la produzione fin da subito.

Come OpenAI o1-mini e OpenAI o1-preview, o3-mini supporterà lo streaming. Inoltre, per la prima volta gli sviluppatori possono scegliere tra tre opzioni di sforzo di ragionamento – basso, medio e alto – per ottimizzare i loro casi d’uso specifici. Questa flessibilità consente a o3-mini di “pensare più intensamente” quando si affrontano sfide complesse o di dare priorità alla velocità quando la latenza è un problema.

o3-mini non supporta le funzionalità di visione, quindi gli sviluppatori dovrebbero continuare a utilizzare OpenAI o1 per le attività di ragionamento visivo.

o3-mini è in fase di lancio nelle API di completamento delle chat, nelle API degli assistenti e nelle API Batch per alcuni sviluppatori selezionati nei livelli di utilizzo delle API 3-5.

Per la prima volta un modello di ragionamento disponibile agli utenti gratuiti di ChatGPT

Gli utenti di ChatGPT Plus, Team e Pro possono già accedere a OpenAI o3-mini , mentre l’accesso Enterprise arriverà entro il mese di febbraio.

o3-mini sostituirà OpenAI o1-mini nel model picker, offrendo limiti di velocità più elevati e una latenza più bassa, il che lo rende ideale per le attività di codifica, STEM e risoluzione di problemi logici.

Come parte di questo aggiornamento, OpenAI sta triplicando il limite di velocità per gli utenti Plus e Team, passando da 50 messaggi al giorno con o1-mini a 150 messaggi al giorno con o3-mini.

Inoltre, o3-mini funziona con la ricerca per trovare risposte aggiornate con collegamenti a fonti web pertinenti. Si tratta di un primo prototipo.

Gli utenti del piano gratuito possono provare OpenAI o3-mini selezionando “Ragiona” nel compositore di messaggi o rigenerando una risposta. È la prima volta che un modello di ragionamento viene reso disponibile agli utenti gratuiti di ChatGPT.

Gli utenti a pagamento hanno la possibilità di selezionare o3-mini-high

Mentre OpenAI o1 rimane il modello di ragionamento di conoscenza generale più ampio, OpenAI o3-mini fornisce un’alternativa specializzata per i domini tecnici che richiedono precisione e velocità. In ChatGPT, o3-mini utilizza uno sforzo di ragionamento medio per fornire un compromesso equilibrato tra velocità e precisione. Tutti gli utenti a pagamento avranno anche la possibilità di selezionare o3-mini-high nel model picker per una versione a più alta intelligenza che richiede un po’ più di tempo per generare le risposte. Gli utenti Pro avranno accesso illimitato sia a o3-mini che a o3-mini-high.

OpenAI o3-mini è ottimizzato per il ragionamento STEM

Come il suo predecessore OpenAI o1, OpenAI o3-mini è stato ottimizzato per il ragionamento STEM. o3-mini, con uno sforzo di ragionamento medio, eguaglia le prestazioni di o1 in matematica, codifica e scienze, fornendo risposte più veloci. Le valutazioni di tester esperti hanno dimostrato che o3-mini produce risposte più accurate e chiare, con capacità di ragionamento più forti, rispetto a OpenAI o1-mini. I tester hanno preferito le risposte di o3-mini a quelle di o1-mini nel 56% dei casi e hanno osservato una riduzione del 39% degli errori principali su domande difficili del mondo reale. Con uno sforzo di ragionamento medio, o3-mini eguaglia le prestazioni di o1 in alcune delle più impegnative valutazioni di ragionamento e intelligenza, tra cui AIME e GPQA.

Competizione matematica (AIME 2024)

PhD-level Science Questions (GPQA Diamond)

FrontierMath

Competition Code (Codeforces)

Software Engineering (SWE-bench Verified)

LiveBench Coding

General knowledge

Human Preference Evaluation

Velocità e prestazioni del modello

Con un’intelligenza paragonabile a quella di OpenAI o1, OpenAI o3-mini offre prestazioni più veloci e una maggiore efficienza. Oltre alle valutazioni STEM evidenziate sopra, o3-mini dimostra risultati superiori in altre valutazioni matematiche e di fattualità con uno sforzo di ragionamento medio.

Nei test A/B, o3-mini ha fornito risposte più veloci del 24% rispetto a o1-mini, con un tempo medio di risposta di 7,7 secondi rispetto a 10,16 secondi.

Confronto della latenza tra o1-mini e o3-mini (media)

Sicurezza

Una delle tecniche chiave utilizzata per insegnare a OpenAI o3-mini a rispondere in modo sicuro è l’allineamento deliberativo, in cui è stato addestrato il modello a ragionare sulle specifiche di sicurezza scritte dall’uomo prima di rispondere alle richieste dell’utente. Come OpenAI o1, si è scoperto che o3-mini supera in modo significativo GPT-4o nelle valutazioni di sicurezza e jailbreak. Prima della distribuzione, sono stati valutati attentamente i rischi di sicurezza di o3-mini utilizzando lo stesso approccio di preparazione, red-teaming esterno e valutazioni di sicurezza di o1.

I dettagli delle valutazioni che seguono, insieme a una spiegazione completa dei rischi potenziali e dell’efficacia delle mitigazioni, sono disponibili nella scheda di sistema di o3-mini.

Valutazioni dei contenuti non consentite

Valutazioni sul jailbreak

La risposta di OpenAI ai modelli di ragionamento “economici” cinesi

Il rilascio di OpenAI o3-mini segna un altro passo avanti nella missione di OpenAI di superare i confini dell‘intelligenza a basso costo. Questo modello continua il percorso di riduzione del costo dell’intelligenza – riducendo i prezzi per token del 95% dal lancio di GPT-4 – pur mantenendo capacità di ragionamento di alto livello.

Con o3-mini, OpenAI ha voluto dimostrare di non essere da meno dei cinesi di DeepSeel e Alibaba nello sviluppare modelli di ragionamento di piccole dimensioni ed elevate prestazioni. La competizione fra Usa e Cina sul fronte dei modelli di linguaggio e di ragionamento si fa sempre più agguerrita.

@RIPRODUZIONE RISERVATA

Pierluigi Sandonnini

Senior web editor Digital360. Oltre trent'anni di esperienza giornalistica, maturata in diversi settori della tecnologia: audio video, tv digitale, telecomunicazioni, internet, intelligenza artificiale. Da cinque anni gestisce il sito Ai4business.it, curandone i contenuti e scrivendo articoli.

Seguimi su