EuroBERT è un modello di codifica multilinguistico all’avanguardia progettato per migliorare le prestazioni nelle lingue europee e in quelle più diffuse a livello globale, presentato da Hugging Face, in collaborazione con importanti istituzioni di ricerca e partner industriali. Ottimizzato per attività a livello di documento, EuroBERT supporta sequenze di testo lunghe fino a 8.192 token e si distingue nel retrieval multilinguistico, nella classificazione, nella regressione e persino nel ragionamento matematico e sul codice.
AMD e CINES hanno contribuito a questo innovativo progetto fornendo un supporto tecnologico fondamentale, che ha permesso un addestramento e un’implementazione efficienti dell’architettura avanzata di EuroBERT.
EuroBERT è ottimizzato per un’ampia gamma di applicazioni e introduce diverse innovazioni nell’architettura del modello, nella metodologia di formazione e nella cura dei set di dati. Sfruttando le intuizioni dei moderni modelli generativi, offre prestazioni all’avanguardia mantenendo l’efficienza e la robustezza delle architetture basate su codificatore.
Negli ultimi anni, i grandi modelli linguistici hanno dominato l’elaborazione del linguaggio naturale (NLP), con molti progressi incentrati sui modelli generativi. Tuttavia, i modelli di codificatore bidirezionali rimangono essenziali per attività quali recupero, classificazione e regressione.
Indice degli argomenti:
EuroBERT, cosa lo rende diverso dai modelli tradizionali
EuroBERT migliora i tradizionali modelli di codifica multilingue come XLM-RoBERTa e mGTE in diversi modi chiave:
- Addestramento multilingue esteso. Addestrato su un set di dati da 5 trilioni di token che abbraccia 15 lingue, garantendo un’ampia copertura linguistica.
- Architettura avanzata. Incorpora attenzione alle query raggruppate, incorporamenti di posizione rotativa e normalizzazione della radice quadrata media per una migliore efficienza e prestazioni.
- Supporto contestuale più lungo. Supporta nativamente sequenze fino a 8.192 token, rendendolo ideale per attività a livello di documento.
- Conoscenza specializzata. Include set di dati per linguaggi di matematica e programmazione per migliorare le capacità di recupero e ragionamento.
Metodologia di addestramento
EuroBERT segue una pipeline di addestramento in due fasi.
- Pre-addestramento: il modello apprende le strutture linguistiche da un corpus massiccio utilizzando un obiettivo di modellazione linguistica mascherata (MLM), sfruttando dati multilingue di alta qualità.
- Fase di ricottura: il mix di dati viene regolato e l’addestramento viene perfezionato per prestazioni downstream ottimali. Le regolazioni includono la riduzione del rapporto di mascheramento e la modifica della distribuzione dei dati.
Applicando questo approccio, EuroBERT garantisce un’elevata adattabilità su più attività NLP mantenendo al contempo una forte generalizzazione.
Inoltre, per coloro interessati ai dettagli, Hugging Face ha condotto ampie ablazioni nel suo studio per comprendere l’impatto di varie scelte di formazione. Queste ablazioni includono gli effetti del filtraggio della qualità dei dati, dei rapporti di mascheramento, delle variazioni della lunghezza delle frasi e del bilanciamento dei dati multilingue. Maggiori dettagli su questi esperimenti e approfondimenti sono disponibili nel documento completo.
Punti salienti delle prestazioni
EuroBERT ottiene risultati all’avanguardia su un set diversificato di attività NLP multilingue. I principali parametri di riferimento includono:
- Multilingual Retrieval (MIRACL, Wikipedia, CC-News). Supera i modelli esistenti nelle attività di classificazione e ricerca di documenti.
- Classificazione (XNLI, PAWS-X, Amazon Reviews). Dimostra un’accuratezza competitiva nell’inferenza del linguaggio naturale e nell’analisi del sentiment.
- Regressione (SeaHorse, WMT, SummEval). Eccelle nelle attività di valutazione e similarità del testo. Comprensione di codice e matematica: ottiene ottimi risultati nella ricerca di codice (CodeSearchNet) e nel ragionamento matematico (MathShepherd).


EuroBERT per la PNL a contesto lungo
Una delle caratteristiche principali di EuroBERT è la sua capacità di gestire efficacemente le attività a contesto lungo. Grazie al supporto di sequenze fino a 8.192 token, è particolarmente adatto al reperimento di documenti, alla sintesi e alla risposta a domande su testi estesi.

EuroBERT, disponibile in tre dimensioni
I modelli EuroBERT sono disponibili in tre dimensioni (parametri 210m, 610m e 2.1B) e seguono da vicino l’architettura Llama 3 (Llama Team, 2024).
Architettura
I modelli EuroBERT si basano su un trasformatore denso standard (Vaswani et al., 2017), con diverse modifiche architettoniche. Similmente a Llama 2 (Touvron et al., 2023), sono stati rimossi tutti i bias. Inoltre, è stata incorporata l’attenzione di query raggruppata (Ainslie et al., 2023), unità lineari swishgate (Shazeer, 2020), normalizzazione del livello della radice quadrata media (Zhang & Sennrich, 2019) e incorporamenti di posizione rotativa (Su et al., 2024).
Accesso aperto e disponibilità
Per favorire la ricerca e le applicazioni reali, Hugging Face sta aprendo l’intera famiglia EuroBERT, inclusi:
- Checkpoint del modello (210M, 610M e 2.1B parametri)
- Istantanee intermedie di addestramento per la riproducibilità
- Struttura di addestramento e composizione del set di dati.