Il recente rilascio di OpenAI o1 ha catturato l’attenzione sui modelli di ragionamento avanzato (LRM), ispirando lo sviluppo di nuovi modelli mirati a risolvere problemi complessi che i modelli linguistici tradizionali spesso faticano a gestire. Sulla scia del successo di o1, i ricercatori di Alibaba hanno presentato Marco-o1, un modello che potenzia le capacità di ragionamento e affronta problemi con soluzioni aperte, dove mancano standard chiari e ricompense quantificabili.
Mentre OpenAI o1 utilizza lo “scaling del tempo di inferenza” per migliorare la capacità di ragionamento del modello, Marco-o1 spinge ulteriormente i limiti dei modelli linguistici di grandi dimensioni (LLM). I ricercatori di Alibaba hanno perfezionato il modello Qwen2-7B-Instruct integrando tecniche avanzate come il fine-tuning del chain-of-thought (CoT), il Monte Carlo Tree Search (MCTS) e strategie di azione di ragionamento.
Algoritmi e strategie di ragionamento
Marco-o1, il cui nome deriva dal MarcoPolo Team di Alibaba, è stato addestrato su un mix di dataset, tra cui Open-O1 CoT e un dataset sintetico generato tramite MCTS. L’MCTS è un algoritmo di ricerca efficace in scenari di problem-solving complessi, che esplora intelligentemente diversi percorsi di soluzione. Marco-o1 utilizza l’MCTS per esplorare molteplici percorsi di ragionamento, costruendo un albero decisionale basato sui punteggi di fiducia dei token di risposta candidati.
Una delle innovazioni chiave di Marco-o1 è l’introduzione di un meccanismo di riflessione, che spinge il modello a riesaminare periodicamente il proprio processo di ragionamento per identificare eventuali errori e affinare il pensiero. Questo approccio permette al modello di agire come critico di sé stesso, migliorando la precisione delle sue conclusioni.
Prestazioni e applicazioni
Per valutare le prestazioni di Marco-o1, i ricercatori hanno condotto esperimenti su diversi compiti, inclusi problemi matematici multilingue. Marco-o1 ha superato significativamente il modello base Qwen2-7B, specialmente quando il componente MCTS è stato regolato per la granularità a singolo token. Inoltre, il modello ha dimostrato una notevole capacità di tradurre espressioni colloquiali e gergali, mostrando una comprensione profonda delle sfumature linguistiche e culturali.
Una nuova onda di modelli di ragionamento
Dall’uscita di o1, i laboratori di AI stanno accelerando il rilascio di modelli di ragionamento. La comunità open source sta recuperando terreno, rilasciando modelli e dataset che sfruttano le leggi di scaling del tempo di inferenza. Il team di Alibaba ha rilasciato Marco-o1 su Hugging Face, insieme a un dataset parziale di ragionamento. Questi sviluppi avvengono in un contesto di incertezza sul futuro delle leggi di scaling dei modelli, con rapporti che indicano un possibile rallentamento dei ritorni dall’addestramento di modelli più grandi. Tuttavia, è certo che siamo solo all’inizio dell’esplorazione delle possibilità offerte dallo scaling del tempo di inferenza.