Chatbot Arena è un sito web gestito da due studenti universitari, Anastasios Angelopoulos e Wei-Lin Chiang, i quali non immaginavano che il loro progetto scolastico si sarebbe rapidamente trasformato nella classifica più seguita dei migliori sistemi di AI al mondo.
Un nuovo metodo di classificazione
Tradizionalmente, le tecnologie AI venivano valutate attraverso test avanzati di matematica, scienza e diritto. Chatbot Arena permette agli utenti di fare domande, ricevere risposte da due modelli di AI anonimi e valutare quale sia migliore. Le valutazioni vengono aggregate su una classifica dove giganti della Silicon Valley come OpenAI, Google e Meta competono con startup meno conosciute.
L’impatto di Chatbot Arena
Chatbot Arena è decollato mentre le aziende tecnologiche investono miliardi, scommettendo che l’AI sarà la tecnologia dominante nei prossimi decenni. Un vantaggio percepito sulla concorrenza può fare una grande differenza nell’attrarre clienti e talenti, motivo per cui molti dirigenti e ingegneri tecnologici seguono Chatbot Arena come i trader di Wall Street seguono i mercati.
Lanciato nell’aprile 2023, Chatbot Arena ha rapidamente attirato l’attenzione delle grandi aziende di AI, che hanno iniziato a chiedere di includere le loro tecnologie nelle classifiche. Dopo il lancio con nove modelli di AI, ora ne classifica oltre 170, con un totale di 2 milioni di voti. Si è espanso per includere classifiche separate per categorie come scrittura creativa, codifica e seguire le istruzioni.
Chatbot Arena, sfide e opportunità
Angelopoulos e Chiang stanno ancora cercando di completare i loro dottorati in informatica, anche se la gestione della classifica, che fanno senza compenso, occupa la maggior parte del loro tempo.
I ricercatori affermano che i benchmark accademici sono diventati meno utili nel tempo perché le loro domande sono state inserite nei modelli di linguaggio di grandi dimensioni, o LLM, che sostengono le applicazioni di AI, permettendo essenzialmente loro di imparare le risposte in anticipo. “Un benchmark potrebbe essere molto impegnativo per gli LLM quando viene rilasciato per la prima volta, ma poi la generazione successiva di LLM raggiunge prestazioni quasi perfette”, ha detto Colin White, capo della ricerca presso Abacus.AI.
Valutazioni basate sulle preferenze
Mentre il formato testa a testa di Chatbot Arena non può essere superato come un test, non misura sempre criteri oggettivi o se i chatbot aderiscono a fatti verificati. Questo è il motivo per cui alcuni ricercatori chiamano l’approccio “valutazioni basate sulle vibrazioni”.
Angelopoulos e Chiang hanno arruolato più di una dozzina di altri collaboratori per il progetto, che sperano diventi qualcosa di simile a una Wikipedia per l’AI. Hanno detto che non stanno considerando di trasformarlo in un’impresa a scopo di lucro. “La cosa buona è che ci sono molteplici possibilità”, ha detto Angelopoulos.
Con la crescita di Chatbot Arena, gli appassionati di AI hanno esaminato i nuovi partecipanti nella speranza di identificare tecnologie che non sono state rilasciate al pubblico. Un modello misterioso chiamato “im-also-a-good-gpt2-chatbot“, rilasciato su Chatbot Arena a maggio, si è rivelato essere GPT-4o, la tecnologia che attualmente alimenta ChatGPT.
Conclusioni
Il feedback degli utenti raccolto da Chatbot Arena è diventato una fonte di dati preziosa per gli sviluppatori. Il sito ha rilasciato periodicamente il 20% dei dati che raccoglie, abbastanza per essere utile senza permettere alle aziende di manipolare il sistema. Google utilizza i dati per cercare modelli in “come gli utenti esperti di tecnologia interagiscono con i chatbot”.