Microsoft, Meta e Google hanno rilasciato nuove versioni con meno ‘parametri’, più economiche da costruire e addestrare. Proprio quelle aziende che hanno investito miliardi di dollari nella creazione dei cosiddetti grandi modelli linguistici per alimentare i prodotti AI generativi stanno ora scommettendo su un nuovo metodo per aumentare i ricavi: i piccoli modelli linguistici (SLM, Small Language Model).
Nuovi modelli con meno parametri e minor costo
Queste mosse rappresentano uno sforzo da parte dei gruppi tecnologici per incoraggiare l’adozione dell’AI da parte delle aziende che nutrono preoccupazioni riguardo ai costi e alla potenza di calcolo necessaria per eseguire grandi modelli linguistici. In generale, più alto è il numero di parametri, migliore è la performance del software AI e più complesse e sfumate possono essere le sue attività. L’ultimo modello GPT-4o di OpenAI e Gemini 1.5 Pro di Google, entrambi annunciati questa settimana, sono stimati avere più di 1000 miliardi di parametri, e Meta sta addestrando una versione da 400 miliardi di parametri del suo modello open-source Llama. Oltre a faticare a convincere alcuni clienti aziendali a pagare le grandi somme necessarie per eseguire prodotti AI generativi, ci sono anche preoccupazioni riguardo alla responsabilità dei dati e dei diritti d’autore che frenano l’adozione. Ciò ha portato gruppi come Meta e Google a proporre piccoli modelli linguistici con solo qualche miliardo di parametri come alternative più economiche, efficienti dal punto di vista energetico, personalizzabili che richiedono meno potenza per essere addestrati ed eseguiti, che possono anche proteggere i dati sensibili.
Llama 3 con 8 mld di parametri è paragonabile a GPT-4
“Avere questa qualità a un costo inferiore, permette effettivamente molte più applicazioni per i clienti per fare cose che prima erano proibitive perché non c’era abbastanza ritorno sull’investimento per giustificarle”, dichiara Eric Boyd, vicepresidente aziendale della piattaforma Azure AI di Microsoft. Google, Meta, Microsoft e la start-up francese Mistral hanno anche rilasciato piccoli modelli linguistici che mostrano capacità avanzate e possono essere meglio focalizzati su specifiche applicazioni.
Nick Clegg, presidente degli affari globali di Meta, afferma che il nuovo modello Llama 3 da 8 mld di parametri è paragonabile a GPT-4. “Penso che su praticamente ogni misura possibile si veda una performance superiore”, ha detto. Microsoft ha dichiarato che il suo modello Phi-3-small, con 7 miliardi di parametri, ha superato GPT-3. I piccoli modelli possono processare compiti localmente su un dispositivo, piuttosto che inviare informazioni al cloud, il che potrebbe attrarre clienti attenti alla privacy che vogliono garantire che le informazioni siano mantenute all’interno delle reti interne.
Charlotte Marshall, associata senior di Addleshaw Goddard, uno studio legale che consiglia le banche, ritiene che “una delle sfide che penso molti dei nostri clienti abbiano avuto” nell’adottare prodotti AI generativi era l’aderenza ai requisiti normativi sulla gestione e il trasferimento dei dati. Afferma che i modelli più piccoli offrono “un’opportunità per le aziende di superare” preoccupazioni legali e di costo.
Piccoli modelli anche per gli smartphone
I modelli più piccoli permettono anche alle funzionalità AI di funzionare su dispositivi come gli smartphone. Il modello “Gemini Nano” di Google è incorporato nel suo ultimo Pixel e nell’ultimo smartphone S24 di Samsung. Apple ha lasciato intendere che sta sviluppando anche modelli AI da eseguire sul suo iPhone più venduto. Il mese scorso, il gigante della Silicon Valley ha rilasciato il suo modello OpenELM, un piccolo modello progettato per eseguire compiti basati sul testo. Boyd di Microsoft ha detto che i modelli più piccoli porteranno a “applicazioni interessanti, fino ai telefoni e ai laptop”.
Il capo di OpenAI, Sam Altman, a novembre 2023 ha dichiarato che la start-up con sede a San Francisco offre modelli AI di diverse dimensioni ai clienti che “servono scopi separati”, e continuerà a costruire e vendere queste opzioni. “Ci sono alcune cose in cui i modelli più piccoli funzioneranno molto bene”, ha aggiunto. “Sono entusiasta per questo.”
Tuttavia, Altman ha aggiunto che OpenAI rimarrà concentrata sulla costruzione di modelli AI più grandi con capacità ampliate, tra cui la capacità di ragionare, pianificare ed eseguire compiti e infine raggiungere l’intelligenza umana. “Ci sono molti momenti in cui penso che le persone vogliano semplicemente il miglior modello”, ha detto. “Penso che sia quello che le persone vogliono principalmente.”