Le aziende tecnologiche stanno accelerando il processo di ridefinizione dei test per i loro modelli di intelligenza artificiale, poiché la velocità con cui la tecnologia avanza supera i benchmark attuali. OpenAI, Microsoft, Meta e Anthropic hanno recentemente annunciato piani per costruire agenti AI capaci di eseguire compiti autonomamente per conto degli umani. Per fare ciò in modo efficace, i sistemi devono essere in grado di eseguire azioni sempre più complesse, utilizzando ragionamento e pianificazione.
La sfida dei test standardizzati
Le aziende conducono “valutazioni” dei modelli AI tramite team di personale e ricercatori esterni. Questi test standardizzati, noti come benchmark, valutano le capacità dei modelli e le prestazioni dei sistemi di diversi gruppi o versioni precedenti. Tuttavia, i recenti progressi nella tecnologia AI hanno portato molti dei modelli più recenti a raggiungere o superare il 90% di precisione nei test esistenti, evidenziando la necessità di nuovi benchmark. Ahmad Al-Dahle di Meta dichiara: “Il ritmo dell’industria è estremamente veloce. Stiamo iniziando a saturare la nostra capacità di misurare alcuni di questi sistemi”.
I benchmark interni e le preoccupazioni del settore
Per affrontare questo problema, diversi gruppi tecnologici, tra cui Meta, OpenAI e Microsoft, hanno creato i propri benchmark e test interni per l’intelligenza. Tuttavia, questo ha sollevato preoccupazioni nel settore riguardo alla capacità di confrontare la tecnologia in assenza di test pubblici. Dan Hendrycks del Center for AI Safety afferma: “Molti di questi benchmark ci dicono quanto siamo lontani dall’automazione dei compiti e dei lavori. Senza che siano resi pubblici, è difficile per le aziende e la società più ampia dirlo”.
I limiti dei benchmark pubblici attuali
I benchmark pubblici attuali, come Hellaswag e MMLU, utilizzano domande a scelta multipla per valutare il buon senso e la conoscenza su vari argomenti. Tuttavia, i ricercatori sostengono che questo metodo sta diventando obsoleto e che i modelli necessitano di problemi più complessi. Mark Chen di OpenAI ha dichiarato: “Stiamo entrando in un’era in cui molti dei test scritti dagli umani non sono più sufficienti come buon barometro per quanto sono capaci i modelli”.
Aggiornamenti e nuove sfide
Un benchmark pubblico, SWE-bench Verified, è stato aggiornato ad agosto 2024 per valutare meglio i sistemi autonomi basandosi sul feedback delle aziende, inclusa OpenAI. Utilizza problemi software reali provenienti dalla piattaforma GitHub e coinvolge la fornitura di un repository di codice e un problema di ingegneria all’agente AI, chiedendo loro di risolverlo. Su questa misura, l’ultimo modello di OpenAI, GPT-4o preview, risolve il 41,4% dei problemi, mentre Claude 3.5 Sonnet di Anthropic raggiunge il 49%.
La complessità dei sistemi agentici
Jared Kaplan di Anthropic dichiara: “È molto più impegnativo [con i sistemi agentici] perché è necessario collegare quei sistemi a molti strumenti extra”. È essenziale creare un ambiente sandbox per loro, non è semplice come fornire un prompt e valutare il completamento. Un altro fattore importante nei test avanzati è assicurarsi che le domande dei benchmark non siano rese pubbliche, per evitare che i modelli “imbroglino” generando risposte dai dati di addestramento.
Il ruolo del ragionamento e della pianificazione
La capacità di ragionare e pianificare è fondamentale per sbloccare il potenziale degli agenti AI che possono eseguire compiti su più fasi e applicazioni, e correggersi autonomamente. Ece Kamar di Microsoft afferma: “Stiamo scoprendo nuovi modi per misurare questi sistemi e, naturalmente, uno di questi è il ragionamento, che è una frontiera importante”. Microsoft sta lavorando su un benchmark interno che incorpora problemi non precedentemente apparsi nell’addestramento per valutare se i suoi modelli AI possono ragionare come un essere umano.
Dibattito sul ragionamento nei modelli AI
Alcuni ricercatori, tra cui quelli di Apple, hanno messo in discussione se i modelli di linguaggio attuali stiano “ragionando” o semplicemente “abbinando schemi” ai dati più simili visti durante l’addestramento. Ruchir Puri di IBM Research afferma: “Nei domini più ristretti di cui le aziende si preoccupano, ragionano”. Il dibattito riguarda il concetto più ampio di ragionamento a livello umano, che potrebbe quasi collocarlo nel contesto dell’intelligenza generale artificiale.
Sforzi esterni per nuovi benchmark
La necessità di nuovi benchmark ha portato anche a sforzi da parte di organizzazioni esterne. A settembre, la start-up Scale AI e Hendrycks hanno annunciato un progetto chiamato “Humanity’s Last Exam“, che ha raccolto domande complesse da esperti di diverse discipline che richiedevano ragionamento astratto per essere completate. Un altro esempio è FrontierMath, un nuovo benchmark rilasciato questa settimana, creato da matematici esperti. Sulla base di questo test, i modelli più avanzati possono completare meno del 2% delle domande.
Conclusioni
Tuttavia, senza un accordo esplicito sulla misurazione di tali capacità, gli esperti avvertono che può essere difficile per le aziende valutare i loro concorrenti o per le imprese e i consumatori comprendere il mercato. Afferma Ahmad Al-Dahle di Meta: “Non c’è un modo chiaro per dire ‘questo modello è decisamente migliore di questo’ [perché] quando una misura diventa un obiettivo, cessa di essere una buona misura. È qualcosa su cui, come industria nel suo complesso, stiamo lavorando”.