Gran finale per OpenAI: al dodicesimo giorno di presentazioni lancia la nuova frontiera dell’intelligenza artificiale: i modelli o3 e o3-mini. Per il momento l’accesso è riservato ai ricercatori specializzati in sicurezza e protezione, ma l’invito è rivolto a tutta la comunità scientifica, che viene incoraggiata a candidarsi per esplorare e testare questi sistemi innovativi prima del loro rilascio ufficiale.
Le domande di partecipazione possono essere trovate nel post sul blog dedicato.
o3 e o3-mini, valutazioni e prestazioni
Durante l’evento livestream del 20 dicembre sono stati presentati i primi risultati delle valutazioni sui modelli o3 e o3-mini, confrontandoli con le versioni precedenti, o1 e o1-mini. Nonostante si tratti di versioni iniziali, i progressi sono già evidenti, specialmente nei benchmark matematici e nelle nuove tecniche di sicurezza. Tra i risultati più significativi, o3 ha superato o1 di 22,8 punti percentuali su SWE-Bench Verified e ha ottenuto un punteggio di 2727 su Codeforces.
Inoltre, ha dimostrato eccellenza in matematica e scienze, con un punteggio del 96,7% in AIME 2024 e l’87,7% in GPQA Diamond.
Private chain of thought
Il modello o3 adotta un metodo per affrontare i problemi che è stato introdotto con il modello o1, attualmente disponibile per gli utenti di ChatGpt. Questo metodo viene descritto dall’azienda californiana come una private chain of thought (“catena di pensiero privata”).
In sostanza, anche il nuovo modello o3 simula un processo di ragionamento. Ogni attività viene scomposta in passaggi più piccoli per giungere a una soluzione. Questo metodo è simile a quello utilizzato da altri modelli in grado di “ragionare”, come Gemini 2.0 di Google.
Quando riceve un input, o3 non si precipita a fornire una risposta. Invece, si prende il tempo necessario per valutare scenari correlati e illustrare con precisione il suo processo di pensiero. Questo approccio riflessivo consente al modello di esaminare diverse opzioni prima di sintetizzare quella che considera la risposta più corretta.
Tempi di risposta
Una delle caratteristiche uniche di o3 è la possibilità di regolare il tempo dedicato al ragionamento. Gli utenti possono infatti impostare la durata del “pensiero” del modello a vari livelli: basso, medio o alto, a seconda delle esigenze. Aumentando il livello o il tempo di calcolo, cresce anche la capacità del modello di affrontare compiti complessi.
L‘impegno per la sicurezza
Parallelamente alla presentazione dei nuovi modelli, OpenAI ha pubblicato una ricerca innovativa sull’allineamento deliberativo, una tecnica avanzata che è stata fondamentale per l’allineamento di o1, il modello più robusto sviluppato finora.
Con l’evoluzione delle capacità dell’AI, cresce anche l’opportunità di migliorare la sicurezza e garantire un allineamento rigoroso. L’azienda intende condividere i risultati di questa ricerca con la comunità scientifica e si prepara a collaborare attivamente alla sperimentazione di o3 e o3-mini.