Dopo aver rilasciato una prima versione del modello di ragionamento o1, o1-preview, la scorsa settimana, OpenAI ha lanciato la versione più piccola ma più veloce del modello, o1-mini. Emergono dettagli interessanti su questo nuovo modello.
Secondo gli sviluppatori che hanno valutato e condiviso gli esempi, o1-mini è addirittura migliore di o1-preview in matematica. Ed è generalmente alla pari nella maggior parte degli altri aspetti, compresi gli “hard prompt”, ovvero le richieste particolarmente complesse, secondo l’ultimo rapporto di Lmsys. Lmsys classifica o1-mini al terzo posto, dietro a o1-preview e al modello di punta dell’azienda, GPT-4o.
o1-mini potrebbe avere prestazioni migliori anche nella codifica
OpenAI stessa ha dichiarato che o1-mini potrebbe avere prestazioni migliori del fratello maggiore anche nei compiti di codifica, il che è importante perché la codifica è l’applicazione più popolare dei modelli linguistici di grandi dimensioni.
Uno dei motivi delle prestazioni relativamente potenti di o1-mini è che OpenAI consente ai clienti di utilizzare un maggior numero di token quando gli pongono delle domande, rispetto a o1-preview. Questo perché le dimensioni ridotte di o1-mini consentono di elaborare le informazioni in modo più efficiente ed economico, secondo le implicazioni di un post di uno dei suoi dipendenti.
In effetti, o1-mini elabora i token tre volte più velocemente di o1-preview.
Per questo motivo, OpenAI lascia che o1-mini pensi più a lungo di o1-preview, e questa mossa contribuisce a dimostrare ciò che l’azienda afferma essere la parte migliore dei suoi modelli di ragionamento: più tempo di riflessione equivale a risposte migliori, altrimenti noto come log-linear compute scaling.
Il guadagno di efficienza che OpenAI ha ottenuto riducendo o1 a una forma miniaturizzata sembra essere un risultato altrettanto importante quanto la dimostrazione del concetto di ragionamento.
LLM sempre più grandi, occorre ridurli perché l’economia dell’AI funzioni
I migliori LLM stanno diventando sempre più grandi e la capacità di ridurli in modo che siano più economici da usare sarà la chiave per far funzionare l’economia dell’AI. OpenAI non ha pubblicato informazioni su ciò che ha fatto per ottenere questo risultato, e il suo staff sta tenendo le carte coperte quando si tratta di o1.
Sorprende vedere che OpenAI sta già facendo pagare agli sviluppatori meno per o1-mini che per GPT-4o. Il nuovo modello è ancora 20 volte più costoso della versione mini di GPT4o, ma visti gli indizi che OpenAI ha fornito nei commenti pubblici, dubitiamo che costi molto di più per funzionare.
Non sappiamo quanti early adopter saranno disposti a pagare i prezzi gonfiati per utilizzare il miglior LLM al mondo, ma OpenAI ha detto agli sviluppatori di aspettarsi tagli di prezzo per i suoi modelli o1, simili ai tagli di prezzo per i modelli della classe GPT-4.
Questi tagli avverranno prima o poi. Potrebbe dipendere da quando concorrenti come Google e Anthropic lanceranno i propri modelli di ragionamento. Questi rivali potrebbero avere la necessità di fissare prezzi inferiori a OpenAI per avere maggiori possibilità di attrarre gli sviluppatori.
Per gli sviluppatori OpenAIo1-mini ha un costo inferiore dell’80% rispetto a 01-preview
Questo nuovo modello si avvicina notevolmente alle prestazioni di OpenAI o1 nei benchmark di valutazione come AIME e Codeforces. Gli sviluppatori prevedono che o1-mini sarà un modello più veloce e conveniente per applicazioni che richiedono ragionamento.
OpenAI ha lanciato o1-mini per gli utenti di API di livello 5 a un costo inferiore dell’80% rispetto a OpenAIo1-preview. Gli utenti di ChatGPT Plus, Team, Enterprise ed Edu possono utilizzare o1-mini come alternativa a o1-preview, beneficiando di limiti di velocità più elevati e latenza ridotta.
Ottimizzato per il ragionamento STEM
I grandi modelli di linguaggio come o1 sono pre-addestrati su vasti dataset di testo. Sebbene questi modelli ad alta capacità possiedano una vasta conoscenza del mondo, possono risultare costosi e lenti per applicazioni reali. Al contrario, o1-mini è un modello più piccolo ottimizzato per il ragionamento STEM durante il pre-addestramento. Dopo essere stato addestrato con lo stesso pipeline di apprendimento rinforzato ad alta computazione di o1, o1-mini raggiunge prestazioni comparabili in molti compiti di ragionamento utili, risultando significativamente più economico.
Quando valutato su benchmark che richiedono intelligenza e ragionamento, o1-mini si comporta bene rispetto a o1-preview e o1. Tuttavia, o1-mini mostra prestazioni inferiori nei compiti che richiedono conoscenze fattuali non-STEM.
Programmazione: sul sito di competizioni Codeforces, o1-mini raggiunge un punteggio Elo di 1650, competitivo con o1 (1673) e superiore a o1-preview (1258). Questo punteggio Elo colloca il modello approssimativamente all’86° percentile dei programmatori che competono sulla piattaforma Codeforces. o1-mini si comporta bene anche nel benchmark di programmazione HumanEval e nelle sfide di cybersecurity a livello di scuola superiore (CTFs).
Velocità del modello
Come esempio concreto, sono state confrontate le risposte di GPT-4o, o1-mini e o1-preview su una domanda di ragionamento verbale. Mentre GPT-4o non ha risposto correttamente, sia o1-mini che o1-preview lo hanno fatto, e o1-mini ha raggiunto la risposta con una velocità 3-5 volte superiore.
Valutazione delle preferenze umane: OpenAI ha chiesto a valutatori umani di confrontare o1-mini con GPT-4o su richieste aperte e impegnative in vari ambiti, utilizzando la stessa metodologia del confronto tra o1-preview e GPT-4o. Come nel caso di o1-preview, o1-mini è preferito a GPT-4o nei domini che richiedono un ragionamento, ma non è preferito a GPT-4o nei domini incentrati sul linguaggio.
A causa della sua specializzazione sulle capacità di ragionamento STEM, la conoscenza fattuale di o1-mini su argomenti non STEM come date, biografie e curiosità è paragonabile a quella di piccoli LLM come GPT-4o mini. OpenAI migliorerà queste limitazioni nelle versioni future e sperimenterà l’estensione del modello ad altre modalità e specialità al di fuori delle materie STEM.