“SmolVLM è un modello multimodale compatto open source che accetta sequenze arbitrarie di input di immagini e testi per produrre output testuali”, spiegano i ricercatori di Hugging Face. La sua efficienza senza precedenti richiede solo 5,02 GB di RAM GPU, mentre modelli concorrenti come Qwen-VL 2B e InternVL2 2B richiedono rispettivamente 13,70 GB e 10,52 GB.
approfondimento
Hugging Face presenta SmolVLM, costi dell’AI ridotti per le aziende
Si tratta di un modello di intelligenza artificiale visivo-linguistico compatto che promette di cambiare radicalmente l’uso dell’AI nelle operazioni aziendali. Elabora immagini e testo con notevole efficienza, richiedendo solo una frazione della potenza di calcolo rispetto ai suoi concorrenti: solo 5,02 GB di RAM GPU

Continua a leggere questo articolo
Argomenti
Canali