AI generativa

Granite 3.2, tutto sulla famiglia di modelli AI di IBM con capacità di ragionamento avanzate

Home Intelligenza Artificiale AI Generativa

Si tratta di una nuova generazione di modelli di linguaggio che promette maggiore efficienza e capacità di ragionamento. Rivolta a imprese e comunità open-source, include miglioramenti significativi nella gestione dei documenti e nell’ottimizzazione dei costi ed è accessibile e pratica per applicazioni aziendali. Il modello 2B offre capacità multimodali

Pubblicato il 7 mar 2025

Pierluigi Sandonnini

Granite è la terza generazione di modelli linguistici di IBM. Adatti allo scopo e di provenienza aperta, questi modelli pronti per l’impresa offrono prestazioni di rilievo rispetto ai benchmark di sicurezza e in un’ampia gamma di attività aziendali, dalla cybersicurezza al RAG

Granite 3.2 8B offre AI multi-modello e di ragionamento, con caratteristiche di flessibilità per una maggiore efficienza dei costi. Questo aggiornamento è parte dell’obiettivo di IBM di fornire all’open-source e alle imprese un’AI “piccola, efficiente e pratica”, più facile da adottare e più conveniente.

Indice degli argomenti:

Granite 3.2, applicazioni avanzate

Le nuove applicazioni di Granite 3.2 includono un modello di linguaggio visivo per l’elaborazione dei documenti, la classificazione e l’estrazione dei dati. Secondo IBM, il modello VLM eguaglia o supera le prestazioni di modelli significativamente più grandi come Llama 3.2 11B e Pixtral 12B su parametri essenziali.

IBM ha inoltre evidenziato che altre tecniche di ragionamento nell’aggiornamento, come l’inference scaling, dimostrano che il modello Granite 3.2 8B può competere con modelli molto più grandi su benchmark standard di ragionamento matematico. Alcuni modelli di Granite 3.2 includono anche capacità di catena di pensiero per migliorare il ragionamento, dove i passaggi intermedi vengono chiariti.

Modelli ridotti, efficienza e integrazione

Il vice presidente di IBM AI Research, Sriram Raghavan, ha dichiarato che la prossima era dell’AI è incentrata su efficienza, integrazione e impatto reale, consentendo alle imprese di ottenere risultati potenti senza spendere eccessivamente in calcolo. Questi sviluppi di IBM mirano a rendere l’AI più accessibile, conveniente e preziosa per le imprese moderne.

Granite offre anche opzioni ridotte per i modelli di sicurezza Granite Guardian, mantenendo le prestazioni delle versioni precedenti con una riduzione del 30%. Inoltre, una capacità chiamata “verbalized confidence” fornisce una valutazione del rischio più sfumata che riconosce l’ambiguità nel monitoraggio della sicurezza.

Granite 3.2 8B Instruct e Granite 3.2 2B Instruct

I nuovi Granite 3.2 8B Instruct e Granite 3.2 2B Instruct offrono capacità di ragionamento sperimentale a catena di pensiero che migliorano significativamente la loro capacità di seguire istruzioni complesse senza sacrificare le prestazioni generali. Il processo di ragionamento può essere attivato e disattivato, consentendo un uso efficiente delle risorse di elaborazione.

Se combinato con le tecniche di ridimensionamento dell’inferenza di IBM, il processo di pensiero esteso di Granite 3.2 8B Instruct gli consente di soddisfare o superare le prestazioni di ragionamento di modelli molto più grandi, tra cui GPT-4o e Claude 3.5 Sonnet.

Il nuovo modello multimodale, Granite Vision 3.2 2B, è stato sviluppato con un’attenzione particolare alla comprensione dei documenti, su cui eguaglia le prestazioni dei modelli aperti di spicco superiori di cinque volte le sue dimensioni.

Le ultime aggiunte alla famiglia di modelli Granite Timeseries, Granite-Timeseries-TTM-R2.1, espandono le capacità di previsione di TTM per includere previsioni giornaliere e settimanali oltre alle attività di previsione orarie e minute già supportate dai precedenti modelli TTM.

IBM sta introducendo nuove dimensioni di modello per Granite Guardian 3.2, inclusa una variante derivata dal modello linguistico 3B-A800M (MoE). I nuovi modelli offrono maggiore efficienza con una perdita minima di prestazioni.

La serie di modelli Granite Embedding include ora la possibilità di apprendere incorporamenti sparsi. Granite-Embedding-30M-Sparse bilancia efficienza e scalabilità tra diversi budget di risorse e latenza.

Come i loro predecessori, tutti i nuovi modelli IBM Granite vengono rilasciati open source con una licenza Apache 2.0 permissiva.

Granite 3.2, primo modello linguistico di visione (VLM)

Caratterizzato da funzionalità di ragionamento sperimentale e dal primo modello linguistico di visione ufficiale (VLM), Granite 3.2 introduce diverse nuove funzionalità significative nella famiglia Granite.
La versione include anche una serie di miglioramenti all’efficienza, all’efficacia e alla versatilità delle offerte esistenti. La priorità di IBM per modelli pratici e pronti per l’uso aziendale continua la ricerca di prestazioni all’avanguardia con sempre meno parametri.
Gli ultimi modelli Granite sono open source con licenza Apache 2.0. Tutti i modelli Granite sono disponibili su Hugging Face. Alcuni modelli sono disponibili anche tramite piattaforme aggiuntive, tra cui IBM watsonx.ai. Tutorial, ricette e altre risorse sono disponibili nella sezione “Introduzione” alla fine di questo articolo.

IBM Granite 3.2 Instruct: ragionamento quando serve

Le ultime iterazioni dei modelli di linguaggio di grandi dimensioni (LLM) solo testo di punta di IBM, Granite 3.2 Instruct 8B e Granite 3.2 Instruct 2B, sono state addestrate per offrire capacità di ragionamento migliorate rispetto alle loro controparti. L’implementazione del ragionamento è in qualche modo in contrasto con alcune tendenze del settore, in linea con l’approccio pratico di IBM al miglioramento delle prestazioni del modello.

Invece di complicare le pipeline di sviluppo rilasciando “modelli di ragionamento” separati, IBM ha integrato le capacità di ragionamento direttamente nei modelli Instruct principali. Il processo di ragionamento interno del modello può essere facilmente attivato e disattivato, garantendo l’uso appropriato delle risorse di elaborazione per l’attività in questione.

Mentre le tipiche tecniche basate sul ragionamento migliorano le prestazioni del modello su attività logiche (come matematica e codifica) a scapito di altri domini, la metodologia di IBM apporta i vantaggi del ragionamento preservando al contempo le prestazioni generali e la sicurezza su tutta la linea. Queste caratteristiche sperimentali dei nuovi modelli Granite 3.2 Instruct rappresentano solo una delle molteplici esplorazioni in corso presso IBM Research nell’evoluzione del modello basata sul ragionamento.

Ulteriori lavori sulle tecniche di ridimensionamento dell’inferenza dimostrano che Granite 3.2 8B Instruct può essere calibrato per eguagliare o superare le prestazioni di ragionamento matematico di modelli molto più grandi, tra cui GPT-4o-0513 di OpenAI e Claude-3.5-Sonnet-1022 di Anthropic.
L’intuizione che guida i recenti progressi nel ragionamento del modello linguistico deriva dalla ricerca del 2022 che dimostra che semplicemente aggiungendo la frase “pensa passo dopo passo”, una tecnica di progettazione dei prompt comunemente chiamata prompt della catena di pensiero (CoT), migliora significativamente gli output del modello nelle attività di ragionamento.
Una ricerca successiva del 2024 ha inoltre postulato che l’aumento del calcolo del tempo di inferenza, ovvero le risorse utilizzate per generare ogni output durante l’inferenza, potrebbe migliorare le prestazioni del modello tanto quanto l’aumento delle dimensioni di un modello o delle risorse utilizzate per addestrarlo.

Gli approcci più recenti hanno per lo più perseguito tale ridimensionamento dell’inferenza attraverso l’incorporazione di vari framework di apprendimento per rinforzo (RL) che incentivano “processi di pensiero” più lunghi e complessi. È entusiasmante che sia stato dimostrato empiricamente che il ridimensionamento dell’inferenza consente anche a LLM più piccoli di superare le capacità di ragionamento di modelli molto più grandi.
Nonostante i loro punti di forza, i modelli di ragionamento non sono privi di svantaggi. Comprendendo questo, IBM ha adottato misure deliberate per mitigare questi svantaggi nell’implementazione specifica delle capacità di ragionamento per Granite 3.2.

Evitare l’inefficienza

I “modelli di ragionamento” sono in genere più lenti e costosi dei LLM generali, poiché è necessario generare (e pagare) tutti i token che il modello utilizza per “pensare” alla risposta finale prima di fornire effettivamente un output all’utente.

IBM Research ha notato un esempio di DeepSeek-R1, un importante modello di ragionamento, che impiega 50,9 secondi per rispondere alla domanda “Dov’è Roma?”
Ci sono scenari in cui quel tempo e calcolo extra possono essere facilmente giustificati, ma ci sono anche molti scenari in cui diventano uno spreco di risorse. Invece di richiedere agli sviluppatori di destreggiarsi tra questi compromessi ogni volta che scelgono un modello per una determinata applicazione o flusso di lavoro, i modelli IBM Granite 3.2 Instruct consentono di attivare o disattivare il loro processo di pensiero esteso semplicemente aggiungendo il parametro “thinking”:true o “thinking”:false all’endpoint API.

Evitare cali generali delle prestazioni

Nella storia relativamente breve dei modelli di ragionamento, molti approcci importanti hanno dato priorità ai guadagni di prestazioni solo su un set di domini basati sulla logica strettamente focalizzato, come matematica o codifica. Mentre il lavoro in corso di IBM con tecniche di ridimensionamento dell’inferenza ha prodotto miglioramenti delle prestazioni particolarmente impressionanti su benchmark tecnici convenzionalmente associati al “ragionamento”, come AIME e MATH-500, l’obiettivo per Granite 3.2 Instruct era arricchire i processi di pensiero dei modelli per migliorare più ampiamente la loro capacità di seguire istruzioni complesse.

Un focus limitato su attività tecniche esplicitamente mirate dagli sviluppatori del modello può talvolta andare a scapito di altri domini, tra cui prestazioni generali e sicurezza, la cui conoscenza può essere “dimenticata” dal modello se non è adeguatamente coperta nei set di dati utilizzati per migliorare le prestazioni di ragionamento.

Thought Preference Optimization (TPO)

Per evitare ciò, IBM ha sviluppato Granite 3.2 Instruct applicando un framework di apprendimento rinforzato basato su Thought Preference Optimization (TPO) direttamente a Granite 3.1 Instruct. A differenza di molti approcci comuni alle capacità di ragionamento, la minore dipendenza di TPO da operatori logici o funzioni per valutare e premiare gli output del modello semplifica la scalabilità verso attività generali. Ciò ha consentito a Granite 3.2 Instruct di godere di prestazioni migliorate su attività che richiedono ragionamenti complessi senza compromettere le prestazioni altrove.

I vantaggi di questo approccio sono più evidenti nei confronti con i modelli DeepSeek-R1-Distill, che (nonostante i loro nomi) sono in realtà versioni dei modelli Llama e Qwen ottimizzate per emulare il processo di ragionamento di DeepSeek-R1. Vale la pena notare qui che, a differenza dei modelli R1-Distill, i modelli IBM Granite 3.2 Instruct non sono stati addestrati utilizzando dati generati da DeepSeek, semplificando notevolmente le loro implicazioni normative.

Si considerino le prestazioni pre e post ragionamento di modelli Llama, Qwen e Granite di dimensioni simili su ArenaHard e Alpaca-Eval-2, benchmark popolari che misurano la capacità di un modello di pensare a come superare istruzioni difficili. Mentre la tecnica di DeepSeek riduce le prestazioni su queste attività non mirate, le tecniche CoT utilizzate per far evolvere Granite 3.1 Instruct in Granite 3.2 Instruct hanno migliorato significativamente il rispetto delle istruzioni.

IBM mantiene gli aspetti essenziali per l’azienda, tra cui la sicurezza, al centro di tutte le decisioni di progettazione. Mentre i modelli distillati da DeepSeek mostrano un calo significativo delle prestazioni di sicurezza (misurate in base alle prestazioni del benchmark AttaQ), l’approccio di IBM ha preservato la robustezza di Granite 3.2 Instruct agli attacchi avversari.

IBM procede sulla strada del lavoro sul ragionamento

Come già detto, il rilascio di Granite 3.2 segna solo l’inizio delle esplorazioni di IBM sulle capacità di ragionamento per i modelli aziendali. Gran parte della ricerca in corso mira a sfruttare il processo di ragionamento più lungo e robusto di Granite 3.2 per ottimizzare ulteriormente i modelli.
Uno di questi filoni di esplorazione è incentrato sul potenziamento di Granite 3.2 con tecniche di scalatura dell’inferenza più complesse, tra cui il filtro delle particelle e la votazione a maggioranza (detta anche autoconsistenza).

I primi esperimenti dimostrano che, se usato insieme a queste tecniche di scalatura dell’inferenza, le prestazioni di Granite 3.2 nei compiti di ragionamento matematico possono eguagliare o superare quelle di modelli di frontiera molto più grandi.

IBM Granite Vision 3.2 2B: Granite diventa multimodale

Granite Vision 3.2 2B è un modello linguistico leggero e di grandi dimensioni con capacità di visione computerizzata che si rivolge a casi d’uso aziendali quotidiani, addestrato con particolare attenzione alla comprensione di documenti visivi. Gestendo input sia di immagini che di testo, le prestazioni di Granite Vision 3.2 su benchmark aziendali essenziali, come DocVQA e ChartQA, sono in grado di competere con quelle di modelli aperti significativamente più grandi.

Sebbene Granite Vision 3.2 2B non sia esplicitamente destinato a sostituire i modelli Granite di dimensioni simili per il solo testo nelle attività linguistiche, è in grado di gestire in modo adeguato gli scenari text-in e text-out.

Granite Vision 3.2 2B: comprensione visiva

Granite Vision 3.2 2B è in grado di gestire un’ampia gamma di compiti di comprensione visiva, ma è specializzato nei compiti più rilevanti per la comprensione dei documenti e per la generazione aumentata del reperimento multimodale (RAG).

La maggior parte dei VLM, altrimenti chiamati modelli linguistici multimodali di grandi dimensioni (MLLM), sono addestrati per attività visive prevalentemente su immagini naturali. Ciò non garantisce necessariamente prestazioni ottimali su immagini di documenti, le cui caratteristiche visive uniche (layout, font, grafici, infografiche) differiscono significativamente da quelle delle immagini naturali. Rispetto alla maggior parte dei casi d’uso generalizzati di immagine in entrata, testo in uscita, la comprensione del documento richiede una comprensione più specifica e dettagliata del contesto visivo.
Le due sfide principali nel consentire ai MLLM di elaborare efficacemente documenti e immagini associate sono la codifica adeguata di immagini ad alta risoluzione e l’interpretazione accurata del testo situato visivamente all’interno di tali documenti. Gli approcci specializzati in genere si basano su sistemi di riconoscimento ottico dei caratteri (OCR) esterni per elaborare il testo all’interno delle immagini in un framework “percepisci e poi comprendi” o su architetture di modelli su misura progettate esclusivamente per la comprensione dei documenti.
Entrambi gli approcci presentano degli svantaggi. La dipendenza dalla comprensione dei documenti basata su OCR esterni può comportare l’accumulo di errori prima che le informazioni essenziali raggiungano il linguaggio, mentre molti metodi dedicati “senza OCR” hanno difficoltà a gestire input ad alta risoluzione o soffrono di una mancanza di conoscenza complessiva rispetto a quella di un LLM competitivo.
Più di recente, sono state ottenute ottime prestazioni nella comprensione dei documenti mediante l’ottimizzazione delle istruzioni dei modelli linguistici di visione generalizzati su set di dati incentrati sui documenti.

Sfortunatamente, i progressi in questo approccio sono stati in qualche modo limitati dalla carenza di set di dati open source adatti. Per facilitare ulteriori progressi con questo approccio, lo sviluppo di Granite Vision 3.2 da parte di IBM ha comportato un ampio lavoro verso un set di dati completo di istruzioni per la comprensione visiva dei documenti.

DocFM

DocFM: un set di dati di ottimizzazione delle istruzioni per attività di visione aziendale
Il set di dati DocFM è un ampio set di dati di ottimizzazione delle istruzioni per attività di visione basato su un nucleo di dati aziendali attentamente curati. Dettagli estesi sulle fonti di dati utilizzate nella raccolta di set di dati di comprensione dei documenti, sui metodi di filtraggio e pulizia utilizzati per elaborare tale raccolta iniziale e sulle metodologie utilizzate per generare sinteticamente attività di formazione per Granite Vision in seguito sono forniti nel documento tecnico allegato.

I dati di comprensione dei documenti utilizzati per addestrare Granite Vision coprono una vasta gamma di classi di documenti con le categorie più ampie di immagini di documenti generali, grafici, diagrammi di flusso e diagrammi. Il set di dati di istruzione-seguito derivato in ultima analisi da queste fonti di dati abbraccia un insieme diversificato di attività che includono la risposta alle domande sui documenti, la comprensione del testo della scena, l’estrazione chiave-valore, il fondamento del testo, l’analisi del layout, la didascalia, la comprensione dell’interfaccia utente e il codice.

DocFM è un set di dati molto ampio che IBM intende utilizzare per una serie di iniziative di apprendimento visivo a valle in futuro. La formazione di Granite Vision si è basata su un sottoinsieme di DocFM per creare una serie di set di dati sintetici di domande e risposte visive.

Vettori di attenzione sparsi per il monitoraggio della sicurezza intrinseca

Nella progettazione e nella formazione di Granite 3.2 Vision, IBM ha anche introdotto una nuova tecnica di test-time che, anziché basarsi su un modello di guardrail esterno per monitorare l’attività dannosa, incorpora un approccio di sicurezza dedicato direttamente nel modello stesso.
L’intuizione chiave è che all’interno delle numerose teste di attenzione e dei livelli di trasformazione di Granite Vision c’è un sottoinsieme sparso di funzionalità di immagine che potrebbero essere utili per identificare problemi di sicurezza quando le attività di monitoraggio della sicurezza sono formalizzate come problemi di classificazione.

In un processo descritto in dettaglio nel documento tecnico di Granite Vision, IBM Research ha progettato un processo per isolare ed esaminare i vettori di attenzione prodotti all’interno del meccanismo di attenzione di Granite Vision al fine di valutare quali, in media, siano correlati in modo affidabile con determinate classi di input dannosi. Una volta identificate, le teste di attenzione responsabili della generazione di tali “vettori di sicurezza” possono essere utilizzate per determinare se un dato input è sicuro.
IBM continuerà a esplorare le potenziali applicazioni dei vettori di attenzione sparsi. Un potenziale percorso di esplorazione è indagare il loro utilizzo nell’adattamento delle versioni future di Granite Guardian per un monitoraggio della sicurezza completamente multimodale.

Granite Guardian 3.2: più snello, più sicuro, più specifico

Granite Guardian 3.2, l’ultima generazione di modelli di guardrail IBM progettati per rilevare i rischi in prompt e risposte, fornisce prestazioni alla pari con gli equivalenti di Guardian 3.1 a una velocità maggiore con costi di inferenza e utilizzo di memoria inferiori. Fiducia verbalizzata
IBM Granite Guardian 3.2 introduce la fiducia verbalizzata, una nuova funzionalità che fornisce una valutazione più sfumata dei rischi rilevati per riconoscere l’ambiguità insita in determinati scenari di monitoraggio della sicurezza.

Granite Guardian 3.2 introduce due nuove dimensioni di modello:
1. Granite Guardian 3.2 5B deriva da Guardian Guardian 3.1 8B (che a sua volta è stato creato tramite la messa a punto del modello di linguaggio di base per la classificazione di sicurezza). Ispirandosi alla ricerca che dimostra che gli strati più profondi di un neurale sono spesso ridondanti, non completamente sfruttati dal pretraining o semplicemente meno critici degli strati più superficiali delle reti, IBM ha perseguito una strategia di potatura iterativa per “snellire” il modello 8B. Il processo ha portato a una riduzione di circa il 30% dei parametri 8B mantenendo prestazioni vicine a quelle del modello originale.

Innanzitutto, vengono selezionati strati specifici per la potatura in base alla relativa similarità tra i loro vettori di input e i vettori di output. In altre parole, identifichiamo gli strati di rete i cui contributi hanno un impatto minore.
Una volta identificati, 10 strati vengono eliminati dal modello. • Il modello viene quindi “curato” riaddestrandolo sull’80% dei dati di addestramento originali, dopodiché vengono potati altri 2 livelli.

2. Granite Guardian 3.2 3B-A800M è stato creato perfezionando il nostro modello base di miscela di esperti (MoE), che attiva solo 800M del suo conteggio totale di parametri 3B al momento dell’inferenza. La sua introduzione aggiunge un’opzione particolarmente efficiente e conveniente alla gamma Granite Guardian.

Modelli Granite Timeseries: ora con previsioni giornaliere e settimanali

La popolare famiglia open source di modelli compatti Granite Time Series di IBM, soprannominati Tiny Time Mixers (TTM), è stata scaricata oltre 8 milioni di volte su Hugging Face. Mentre le precedenti varianti TTM rilasciate all’interno delle serie TTM-R1 e TTM-R2 supportavano previsioni zero-shot e few-shot per risoluzioni da minute a orarie, l’aggiunta più recente alla gamma Granite Time Series, TTM-R2.1, supporta orizzonti di previsione giornalieri e settimanali.

Un elenco dettagliato di tutte le fonti di dati utilizzate per addestrare TTM-R2 e TTM-R2.1 è disponibile in fondo alla scheda del modello TTM-R2/R2.1 Hugging Face. Un elenco completo delle varianti è disponibile nella scheda “File e versioni”.
Nel Granite Time Series Cookbook sono disponibili numerose ricette per iniziare a usare Tiny Time Mixers.

Prestazioni elevate in un piccolo modello

Nella GIFT-Eval Time Series Forecasting Leaderboard di Salesforce, un benchmark completo che valuta le prestazioni del modello di serie temporali su input multivariati su 24 set di dati che abbracciano 7 domini, 10 frequenze e lunghezze di previsione che vanno dalle previsioni a breve a quelle a lungo termine, i modelli TTM-R2 (incluse le nuove varianti TTM-R2.1) sono al top di tutti i modelli per l’accuratezza delle previsioni puntuali misurata dall’errore assoluto medio scalato (MASE).3 TTM-R2 si classifica anche tra i primi 5 per le previsioni probabilistiche, misurate dal punteggio di probabilità classificato continuo (CRPS).
Vale la pena notare che i modelli TTM raggiungono queste classifiche superando modelli di molte volte le loro dimensioni. Con dimensioni “piccole” di 1-5 milioni di parametri, i modelli TTM sono centinaia di volte più piccoli dei modelli al 2° e 3° posto di MASE, TimesFM-2.0 di Google (500 milioni di parametri) e Chronos-Bolt-Base di Amazon (205 milioni di parametri).

Maggiore versatilità per i casi d’uso di previsione

La versione TTM-R2.1 include un assortimento di modelli con lunghezze di contesto e orizzonti di previsione variabili. Mentre i precedenti modelli TTM-R2 offrono lunghezze di contesto di 1536, 1024 o 512, TTM-R2.1 include modelli con lunghezze di contesto più brevi che vanno da 512 a 52, rendendoli adatti a previsioni giornaliere e settimanali.
I modelli TTM-R2.1 non sostituiscono necessariamente i loro predecessori TTM-R2.

La versione “migliore” di TTM dipende dalla natura dei dati e dal caso d’uso. Ad esempio, Granite-Timeseries-TTM-52-16-ft-R2.1 ha una lunghezza di contesto di 52 e una lunghezza di previsione di 16, il che lo rende più adatto ad attività come l’analisi di un anno di punti dati settimanali e la previsione di risultati settimanali nei mesi successivi.
Il modulo get_model semplifica l’attività selezionando la variante di modello giusta tra le ampie offerte disponibili.

Ottimizzazione del prefisso di frequenza

La designazione ” ft ” inclusa nei nomi dei modelli TTM-R2.1 indica “ottimizzazione della frequenza” (o, più formalmente, ottimizzazione del prefisso di frequenza). Derivata dalle tecniche di ottimizzazione del prefisso utilizzate come alternativa leggera per la messa a punto dei modelli di base per le attività di generazione di testo, l’ottimizzazione del prefisso di frequenza migliora la capacità dei nostri modelli di base delle serie temporali di adattarsi alle variazioni nei dati di input.

Se abilitato, un vettore di incorporamento extra, che indica la frequenza dei dati, viene aggiunto come “prefisso” all’input del modello insieme alle informazioni dalla finestra di contesto. Come descritto nel documento tecnico TTM, il team del modello ha scoperto che la regolazione della frequenza migliora le prestazioni durante il pre-addestramento su grandi raccolte di set di dati con diverse risoluzioni. Durante l’inferenza, questo token di prefisso consente al modello di adattarsi rapidamente alla frequenza dei dati di input, il che è particolarmente utile quando la lunghezza del contesto è molto breve.
Granite Embedding: un nuovo modello di incorporamento sparso
Mentre tutti i precedenti modelli Granite Embedding imparano gli embedding densi, il nuovissimo modello Granite Embedding, Granite-Embedding-Sparse-30M-English, ha un’architettura leggermente modificata che gli consente di imparare gli embedding sparsi.
Ottimizzato per corrispondenze esatte, ricerca di parole chiave e classificazione in inglese, Granite-Embedding-30M-Sparse bilancia efficienza e scalabilità tra diversi budget di risorse e latenza. Viene rilasciato tramite Granite Experiments, un’area di lavoro di IBM Research per testare idee open source per accelerare il ciclo di sviluppo.

Perché gli embedding sparsi?

Un tipico modello di embedding denso prende un input di testo (come un documento, una frase o una query) e restituisce un embedding vettoriale di dimensioni fisse. La dimensione di quel vettore, ovvero quanti numeri (o dimensioni) contiene, è una scelta di progettazione. I modelli che imparano gli embedding più piccoli sono più veloci, ma meno precisi. I modelli che imparano gli embedding più grandi sono più lenti, ma più precisi. Sono chiamati embedding vettoriali “densi” perché ogni dimensione memorizza un valore specifico.
Le singole dimensioni di un embedding vettoriale denso non corrispondono direttamente agli attributi del significato semantico dell’input originale in alcun modo letterale. Gli embedding vettoriali densi sono essenzialmente una scatola nera: i modelli possono usarli per eseguire operazioni utili, ma noi umani non possiamo interpretarli in alcun modo significativo.
Gli embedding sparsi sono più intuitivi. La loro dimensione di embedding è la stessa della loro dimensione di vocabolario: ovvero, ogni dimensione dell’embedding vettoriale corrisponde a una delle “parole” (o, più precisamente, a uno dei token) che il modello ha appreso. Il valore specifico contenuto in ogni dimensione di un vettore di embedding sparso riflette la pertinenza della parola (token) che quella dimensione rappresenta per l’input per cui il modello sta generando un embedding.

Gli embedding sparsi sono quindi abbastanza interpretabili. Per passaggi di testo più brevi, come tweet, commenti o brevi recensioni di prodotti, gli embedding sparsi possono essere significativamente più rapidi, offrendo al contempo prestazioni migliori (o almeno uguali) rispetto a quelle degli embedding densi. In genere offrono prestazioni elevate “out of the box” senza bisogno di messa a punto. Detto questo, non sono privi di svantaggi. Le opportunità di migliorare le prestazioni di un modello di embedding sparsi oltre la sua baseline originale tramite messa a punto sono limitate. Per passaggi di testo più lunghi, qualsiasi vantaggio in termini di efficienza inizia a svanire o addirittura a invertirsi man mano che vengono utilizzate sempre più dimensioni per riflettere la rilevanza di un numero crescente di token dal vocabolario del modello. Il modello di embedding sparsi Granite 30M offre prestazioni pressoché equivalenti alla sua controparte densa 30M nei benchmark di recupero delle informazioni (BEIR), offrendo al contempo un leggero vantaggio rispetto a SPLADE-v3.
Introduzione a Granite 3.2

IBM Granite: formazione e disponibilità

Il modello aggiornato è stato addestrato sull’open-source Docling toolkit di IBM, permettendo agli sviluppatori di convertire documenti in dati specializzati per personalizzare i modelli AI. Ha elaborato 85 milioni di PDF e 26 milioni di coppie di domande e risposte sintetiche per migliorare la capacità del VLM di gestire flussi di lavoro complessi.

Tutti i modelli sono disponibili sotto la licenza permissiva Apache 2.0 su Hugging Face e alcuni modelli sono accessibili su IBM watsonx.ai, Ollama, Replicate e LM Studio, con disponibilità prevista su RHEL AI 1.5.

Oltre all’aggiornamento di Granite, IBM sta rilasciando la prossima generazione di modelli TinyTimeMixers (TTM), modelli pre-addestrati compatti per previsioni multivariate a lungo termine.

Sono disponibili numerose guide e ricette per lavorare con i modelli Granite nella documentazione di Granite e nel Granite Snack Cookbook su GitHub. Gli sviluppatori possono anche iniziare a usare i modelli Granite nel Granite model playground o esplorando la gamma di utili demo e tutorial, come:

@RIPRODUZIONE RISERVATA

Pierluigi Sandonnini

Senior web editor Digital360. Oltre trent'anni di esperienza giornalistica, maturata in diversi settori della tecnologia: audio video, tv digitale, telecomunicazioni, internet, intelligenza artificiale. Da cinque anni gestisce il sito Ai4business.it, curandone i contenuti e scrivendo articoli.

Seguimi su

Argomenti

Canali

A
AI Generativa

Granite 3.2, tutto sulla famiglia di modelli AI di IBM con capacità di ragionamento avanzate

Granite 3.2, applicazioni avanzate

Modelli ridotti, efficienza e integrazione

Granite 3.2 8B Instruct e Granite 3.2 2B Instruct

Granite 3.2, primo modello linguistico di visione (VLM)

IBM Granite 3.2 Instruct: ragionamento quando serve

Evitare l’inefficienza

Evitare cali generali delle prestazioni

Thought Preference Optimization (TPO)

IBM procede sulla strada del lavoro sul ragionamento

IBM Granite Vision 3.2 2B: Granite diventa multimodale

Granite Vision 3.2 2B: comprensione visiva

DocFM

Vettori di attenzione sparsi per il monitoraggio della sicurezza intrinseca

Granite Guardian 3.2: più snello, più sicuro, più specifico

Modelli Granite Timeseries: ora con previsioni giornaliere e settimanali

Prestazioni elevate in un piccolo modello

Maggiore versatilità per i casi d’uso di previsione

Ottimizzazione del prefisso di frequenza

Perché gli embedding sparsi?

IBM Granite: formazione e disponibilità

Pierluigi Sandonnini

Articoli correlati

Amazon: ridurre le allucinazioni dell'AI con il “ragionamento automatico”

Modelli di ragionamento, ecco tutti quelli in campo

DeepSeek-R1, tutto sul modello cinese che sfida OpenAI

Codice Rss

Codice Rss