MMLU – acronimo di Massive Multitask Language Understanding – è un dataset pubblicato nel 2021 da Dan Hendrycks e dal suo team del Center for AI Safety presso UC Berkeley, in collaborazione con altri ricercatori accademici. Nato per rispondere all’esigenza di testare in modo sistematico la conoscenza e il ragionamento di un LLM su un ampio ventaglio di materie disciplinari, MMLU è progettato come benchmark di riferimento per la valutazione generalista. Include 57 materie accademiche, suddivise su quattro livelli di difficoltà crescente:
approfondimento
MMLU, cos’è, come opera il principale benchmark per LLM
Nell’arena globale per valutare l’intelligenza artificiale, questo dataset gioca un ruolo da protagonista. Utilizzato dai principali laboratori di ricerca per confrontare le performance di modelli come GPT-4, Claude, Gemini, LLaMA e altri, MMLU è ormai un benchmark di riferimento. Ma è davvero valido? E cosa dice realmente delle capacità cognitive di un large language model?
Management Consultant, Trainer, Startup Advisor

Continua a leggere questo articolo
Argomenti
Canali