approfondimento

MMLU, cos’è, come opera il principale benchmark per LLM

Nell’arena globale per valutare l’intelligenza artificiale, questo dataset gioca un ruolo da protagonista. Utilizzato dai principali laboratori di ricerca per confrontare le performance di modelli come GPT-4, Claude, Gemini, LLaMA e altri, MMLU è ormai un benchmark di riferimento. Ma è davvero valido? E cosa dice realmente delle capacità cognitive di un large language model?

Pubblicato il 28 mar 2025

Maurizio Carmignani

Management Consultant, Trainer, Startup Advisor

MMLU – acronimo di Massive Multitask Language Understanding – è un dataset pubblicato nel 2021 da Dan Hendrycks e dal suo team del Center for AI Safety presso UC Berkeley, in collaborazione con altri ricercatori accademici. Nato per rispondere all’esigenza di testare in modo sistematico la conoscenza e il ragionamento di un LLM su un ampio ventaglio di materie disciplinari, MMLU è progettato come benchmark di riferimento per la valutazione generalista. Include 57 materie accademiche, suddivise su quattro livelli di difficoltà crescente:

@RIPRODUZIONE RISERVATA