tecnologiA

Il benchmark Michelangelo di DeepMind svela le limitazioni dei LLM a lungo contesto



Indirizzo copiato

I modelli linguistici di grandi dimensioni (LLM) con finestre di contesto molto estese stanno attirando l’attenzione per le loro potenzialità. Tuttavia, il nuovo benchmark evidenzia le loro limitazioni nel ragionamento su contesti lunghi, nonostante i progressi nella capacità di recuperare informazioni

Pubblicato il 11 ott 2024



Michelangelo DeepMind

I modelli linguistici di grandi dimensioni (LLM) con finestre di contesto estese promettono di rivoluzionare lo sviluppo software, permettendo di inserire milioni di token in un singolo prompt. Tuttavia, la vera sfida è capire quanto questi modelli comprendano e utilizzino le informazioni ricevute. Google DeepMind ha introdotto Michelangelo, un benchmark innovativo per valutare le capacità di ragionamento su contesti lunghi degli LLM.

Michelangelo valuta la capacità del modello di comprendere le relazioni e la struttura delle informazioni nel contesto

Per affrontare le limitazioni dei benchmark attuali, i ricercatori hanno introdotto Michelangelo, una valutazione di ragionamento su contesti lunghi per modelli linguistici di grandi dimensioni. Michelangelo si basa sull’analogia di uno scultore che scolpisce il marmo per rivelare la struttura sottostante. Il benchmark valuta la capacità del modello di comprendere le relazioni e la struttura delle informazioni nel contesto, piuttosto che recuperare semplicemente fatti isolati.

I ricercatori hanno testato dieci LLM di frontiera su Michelangelo, tra cui varianti di Gemini, GPT-4 e Claude. Sebbene i modelli abbiano mostrato punti di forza diversi, tutti hanno evidenziato un calo significativo delle prestazioni con l’aumentare della complessità dei compiti di ragionamento.

Kiran Vodrahalli, scienziato di ricerca presso Google DeepMind, sottolinea: “I modelli di frontiera hanno margini di miglioramento su tutti i primitivi di ragionamento oltre il recupero che indaghiamo in Michelangelo.”

Implicazioni per le applicazioni aziendali

Le valutazioni di Michelangelo hanno implicazioni importanti per le applicazioni aziendali. Nei casi in cui il modello non può fare affidamento sulla conoscenza pre-addestrata e deve eseguire ragionamenti complessi su contesti molto lunghi, le prestazioni tendono a diminuire. Vodrahalli osserva che i modelli continueranno a performare bene quando tutte le informazioni rilevanti per rispondere a una domanda si trovano in un’unica parte del documento. I ricercatori di DeepMind continueranno ad arricchire Michelangelo con nuove valutazioni, rendendole disponibili per ulteriori test.

La necessità di nuovi benchmark

L’emergere di LLM con contesti estremamente lunghi ha spinto i ricercatori a sviluppare nuovi benchmark per valutarne le capacità. Finora, l’attenzione si è concentrata su compiti di recupero, come la ricerca di un “ago in un pagliaio”. Spiega Vodrahalli: “Col tempo, i modelli sono diventati molto più capaci nelle prestazioni su contesti lunghi. È importante determinare se i compiti più difficili risolvibili in contesti brevi siano affrontabili anche su lunghe distanze.”

Articoli correlati

Articolo 1 di 3