ANALISI

Cos’è Chatbot Arena, la hit parade dei modelli di AI

Creato da due studenti dell’Università di Berkeley, il sito classifica i migliori sistemi di intelligenza artificiale attraverso battaglie dirette tra modelli. Questa iniziativa, nata come progetto scolastico, è diventata rapidamente un punto di riferimento per i giganti come OpenAI, Google e Meta, che competono per il primo posto in classifica

Pubblicato il 9 dic 2024

Pierluigi Sandonnini

giornalista

Chatbot Arena è un sito web gestito da due studenti universitari, Anastasios Angelopoulos e Wei-Lin Chiang, i quali non immaginavano che il loro progetto scolastico si sarebbe rapidamente trasformato nella classifica più seguita dei migliori sistemi di AI al mondo.

Indice degli argomenti:

Un nuovo metodo di classificazione

Tradizionalmente, le tecnologie AI venivano valutate attraverso test avanzati di matematica, scienza e diritto. Chatbot Arena permette agli utenti di fare domande, ricevere risposte da due modelli di AI anonimi e valutare quale sia migliore. Le valutazioni vengono aggregate su una classifica dove giganti della Silicon Valley come OpenAI, Google e Meta competono con startup meno conosciute.

White Paper

Scopri come l'AI Act trasforma la responsabilità nell'innovazione. Leggi il nostro whitepaper!

Intelligenza Artificiale

Legal

La classifica di Chatbot Arena al 9 dicembre 2024

L’impatto di Chatbot Arena

Chatbot Arena è decollato mentre le aziende tecnologiche investono miliardi, scommettendo che l’AI sarà la tecnologia dominante nei prossimi decenni. Un vantaggio percepito sulla concorrenza può fare una grande differenza nell’attrarre clienti e talenti, motivo per cui molti dirigenti e ingegneri tecnologici seguono Chatbot Arena come i trader di Wall Street seguono i mercati.

Lanciato nell’aprile 2023, Chatbot Arena ha rapidamente attirato l’attenzione delle grandi aziende di AI, che hanno iniziato a chiedere di includere le loro tecnologie nelle classifiche. Dopo il lancio con nove modelli di AI, ora ne classifica oltre 170, con un totale di 2 milioni di voti. Si è espanso per includere classifiche separate per categorie come scrittura creativa, codifica e seguire le istruzioni.

Chatbot Arena, sfide e opportunità

Angelopoulos e Chiang stanno ancora cercando di completare i loro dottorati in informatica, anche se la gestione della classifica, che fanno senza compenso, occupa la maggior parte del loro tempo.

I ricercatori affermano che i benchmark accademici sono diventati meno utili nel tempo perché le loro domande sono state inserite nei modelli di linguaggio di grandi dimensioni, o LLM, che sostengono le applicazioni di AI, permettendo essenzialmente loro di imparare le risposte in anticipo. “Un benchmark potrebbe essere molto impegnativo per gli LLM quando viene rilasciato per la prima volta, ma poi la generazione successiva di LLM raggiunge prestazioni quasi perfette”, ha detto Colin White, capo della ricerca presso Abacus.AI.

Valutazioni basate sulle preferenze

Mentre il formato testa a testa di Chatbot Arena non può essere superato come un test, non misura sempre criteri oggettivi o se i chatbot aderiscono a fatti verificati. Questo è il motivo per cui alcuni ricercatori chiamano l’approccio “valutazioni basate sulle vibrazioni”.

Angelopoulos e Chiang hanno arruolato più di una dozzina di altri collaboratori per il progetto, che sperano diventi qualcosa di simile a una Wikipedia per l’AI. Hanno detto che non stanno considerando di trasformarlo in un’impresa a scopo di lucro. “La cosa buona è che ci sono molteplici possibilità”, ha detto Angelopoulos.

Con la crescita di Chatbot Arena, gli appassionati di AI hanno esaminato i nuovi partecipanti nella speranza di identificare tecnologie che non sono state rilasciate al pubblico. Un modello misterioso chiamato “im-also-a-good-gpt2-chatbot“, rilasciato su Chatbot Arena a maggio, si è rivelato essere GPT-4o, la tecnologia che attualmente alimenta ChatGPT.

Conclusioni

Il feedback degli utenti raccolto da Chatbot Arena è diventato una fonte di dati preziosa per gli sviluppatori. Il sito ha rilasciato periodicamente il 20% dei dati che raccoglie, abbastanza per essere utile senza permettere alle aziende di manipolare il sistema. Google utilizza i dati per cercare modelli in “come gli utenti esperti di tecnologia interagiscono con i chatbot”.

@RIPRODUZIONE RISERVATA

Pierluigi Sandonnini

giornalista

Senior web editor Digital360. Oltre trent'anni di esperienza giornalistica, maturata in diversi settori della tecnologia: audio video, tv digitale, telecomunicazioni, internet, intelligenza artificiale. Da cinque anni gestisce il sito Ai4business.it, curandone i contenuti e scrivendo articoli.

Seguimi su