I modelli linguistici di grandi dimensioni (LLM) con finestre di contesto estese promettono di rivoluzionare lo sviluppo software, permettendo di inserire milioni di token in un singolo prompt. Tuttavia, la vera sfida è capire quanto questi modelli comprendano e utilizzino le informazioni ricevute. Google DeepMind ha introdotto Michelangelo, un benchmark innovativo per valutare le capacità di ragionamento su contesti lunghi degli LLM.
Michelangelo valuta la capacità del modello di comprendere le relazioni e la struttura delle informazioni nel contesto
Per affrontare le limitazioni dei benchmark attuali, i ricercatori hanno introdotto Michelangelo, una valutazione di ragionamento su contesti lunghi per modelli linguistici di grandi dimensioni. Michelangelo si basa sull’analogia di uno scultore che scolpisce il marmo per rivelare la struttura sottostante. Il benchmark valuta la capacità del modello di comprendere le relazioni e la struttura delle informazioni nel contesto, piuttosto che recuperare semplicemente fatti isolati.
I ricercatori hanno testato dieci LLM di frontiera su Michelangelo, tra cui varianti di Gemini, GPT-4 e Claude. Sebbene i modelli abbiano mostrato punti di forza diversi, tutti hanno evidenziato un calo significativo delle prestazioni con l’aumentare della complessità dei compiti di ragionamento.
Kiran Vodrahalli, scienziato di ricerca presso Google DeepMind, sottolinea: “I modelli di frontiera hanno margini di miglioramento su tutti i primitivi di ragionamento oltre il recupero che indaghiamo in Michelangelo.”
Implicazioni per le applicazioni aziendali
Le valutazioni di Michelangelo hanno implicazioni importanti per le applicazioni aziendali. Nei casi in cui il modello non può fare affidamento sulla conoscenza pre-addestrata e deve eseguire ragionamenti complessi su contesti molto lunghi, le prestazioni tendono a diminuire. Vodrahalli osserva che i modelli continueranno a performare bene quando tutte le informazioni rilevanti per rispondere a una domanda si trovano in un’unica parte del documento. I ricercatori di DeepMind continueranno ad arricchire Michelangelo con nuove valutazioni, rendendole disponibili per ulteriori test.
La necessità di nuovi benchmark
L’emergere di LLM con contesti estremamente lunghi ha spinto i ricercatori a sviluppare nuovi benchmark per valutarne le capacità. Finora, l’attenzione si è concentrata su compiti di recupero, come la ricerca di un “ago in un pagliaio”. Spiega Vodrahalli: “Col tempo, i modelli sono diventati molto più capaci nelle prestazioni su contesti lunghi. È importante determinare se i compiti più difficili risolvibili in contesti brevi siano affrontabili anche su lunghe distanze.”