Tecnologie

Small and Wide Data: come funzionano e in che modo sono “diversi” dai LLM

Come funzionano e come il contesto e la varietà di fonti, e non solo la quantità di dati, aiutano a generare insights affidabili, accurati, e gestibili per le aziende

Pubblicato il 28 Giu 2023

Uljan Sharka

Fondatore e CEO di iGenius

dati sicurezza

Siamo abituati a pensare che ci voglia un’enorme mole di dati per far funzionare il machine learning. Siamo certi che il large and wide sia l’approccio adatto per le nostre necessità di business? Ecco spiegato cosa sono gli small data, come funzionano gli small and wide language models e come il contesto e la varietà di fonti, e non solo la quantità di dati, aiutino a generare insights affidabili, accurati, e gestibili per le aziende.

Small data, l’esempio Lego

Alla fine degli anni 2000 l’azienda Lego attraversa una crisi profonda. Con le vendite a ribasso e i costi di produzione in rialzo, e la concorrenza dei videogiochi, l’azienda perde quasi 1 milione di dollari al giorno.

Nel 2004, il nuovo CEO Jørgen Knudstorp, nel tentativo di risollevare le sorti dell’azienda, cambia approccio, smette di guardare i dati su come incrementare le entrate e analizzare le perdite, e si concentra sulla vera identità dell’azienda, guardandola da un’altra prospettiva: quella dei bambini.

Inizia così una user research puntuale, molto accurata, in tutto il mondo; si tratta di ‘entrare letteralmente’ nelle case e osservare i bambini giocare con Lego o altri giochi e far loro poche semplici domande.

Dopo questa ricerca Lego capì che avevano completamente mal interpretato il successo dei videogiochi. Non erano la gratificazione immediata e la semplicità di utilizzo a piacere ai bambini, bensì il livello di abilità raggiunto e le difficoltà superate.

Lego decise così di tornare al proprio core-product e produrre di nuovo ‘pezzi più piccoli e specifici’, anziché i mattoncini più grandi come aveva fatto nel tentativo di competere con i videogiochi, premiando la soddisfazione nel costruire qualcosa di complesso e di diventare bravi in quel qualcosa.

I cambiamenti portati da Lego negli anni successivi – frutto degli insights accurati e contestuali raccolti nel corso delle interviste – ebbero il potere di rivoluzionare completamente le sorti dell’azienda, che oggi conta un fatturato di 8,7 miliardi di euro (2022).

L’insight che abbiamo appena descritto è un esempio di utilizzo di small data.

Dagli small data ai big data

Per comprendere cosa sono gli small data, occorre prima descrivere cosa sono i big data.

Si tratta di grandi insieme di dati, strutturati e non strutturati, raccolti, organizzati ed analizzati da un’infrastruttura di back-end. Per fare questo sono necessarie larghezza di banda di rete, spazio di archiviazione e potenza di elaborazione ed energia, tali da supportare una distribuzione massiccia dei dati e ottenere così un’analisi significativa.

Grazie alle loro caratteristiche di volume, frequenza e varietà, i big data sono ideali per visualizzare tendenze di mercato, comprendere i modelli di distribuzione di un prodotto, ma anche per capire il potenziale di penetrazione in un nuovo mercato, o il canale di marketing dove si trovano i tuoi utenti.

A proposito di small and wide data

Di small and wide data se ne parla da tempo. Nel 2021 al Gartner Data & Analytics Summit, Gartner predisse che entro il 2025, il 70% delle aziende sarebbe passata agli small and wide data, ottenendo così maggiore accuratezza nelle proprie analisi di dati, a partire dal contesto, grazie ad un’intelligenza artificiale meno ‘affamata di dati’. In particolare, nell’articolo si legge: “Nel loro insieme [gli small & wide language models] sono in grado di utilizzare i dati disponibili in modo più efficace, riducendo il volume di dati richiesto, o estraendo più valore dalle fonti di dati a disposizione”.

Un approfondimento della Harvard Business Review dello stesso anno, sostiene che per ogni big data set che alimenta un modello di intelligenza artificiale, o un’iniziativa di advanced analytics, un’azienda potrebbe avere migliaia di small data completamente inutilizzati. E continua: “molti degli insiemi di dati più preziosi nelle organizzazioni sono piuttosto piccoli (…) e sono spesso trascurati, languendo in database non collegati a livello aziendale”.

Una vera miniera d’oro poco o per nulla sfruttata. Con small and wide data s’intende quindi la raccolta e l’analisi di un numero di dati limitato, che punta a collegare sorgenti di dati eterogenee e a trovare correlazioni tra loro, e non solo all’aumento della quantità di dati grezzi.

Se da un lato questo approccio richiede meno dati e quindi meno risorse informatiche, meno energia e tutte le risorse che abbiamo visto essere necessarie per i big data, dall’altro offre spunti specifici e mirati per le aziende, riduce la dipendenza dai big data e consente di ottenere una visione più completa del contesto intorno al quale vengono lavorati i dati.

E proprio come ci dimostra il caso di Lego, questo tipo di dati, come i dati aziendali sul numero di vendite, campagne marketing, e di comportamento dei consumatori, contano, e fanno la differenza.

Small and wide language models, cosa sono

L’avvento di ChatGPT e l’esplosione della intelligenza artificiale generativa, ha messo sotto i riflettori i large language models, modelli di machine learning che richiedono grandi quantità di dati per essere addestrati in modo efficace, ma ha anche messo in luce i rischi, l’inaffidabilità e l’insostenibilità di questi sistemi. A dimostrarlo sono gli stessi dati.

Mentre le grandi serie di dati possono diventare rapidamente ingombranti o obsolete e i trend possono cambiare da un momento all’altro, a causa dei cambiamenti culturali ed economici (vedi per esempio COVID-19 o il conflitto in Ucraina), si stanno gradualmente facendo strada modelli più agili che utilizzano insiemi di dati più piccoli che possono adattarsi dinamicamente e più facilmente a questi cambiamenti.

Appare quindi l’opportunità di usare quella ‘miniera d’oro di small data’, in particolare dati strutturati aziendali, per estrapolare dati precisi e stabilire correlazioni migliori dai set di dati di cui le aziende sono già in possesso.

Gli small and wide language models funzionano, infatti, a partire da un set di dati circoscritto (small) come lo abbiamo appena descritto, e creano un cocktail di informazioni su cui poi i modelli generativi vengono addestrati (wide) per creare una sorta di ‘cervello virtuale privato dell’azienda’.

Vantaggi degli small and wide data

Arrivati a questo punto appare evidente perché l’approccio agli small and wide data è una risorsa preziosa per le aziende.

Oltre ad essere più gestibili, contestuali e specifici perché basati sui dati dell’azienda, possono, infatti, essere sfruttati per ottenere informazioni di valore che vanno in profondità e raccontano il come e il perché di un insight.

In particolare:

  • hanno maggiori livelli di accuratezza e precisione delle informazioni e sono quindi indicati quando è critico raggiungere livelli di accuratezza del 100%
  • permettono di andare in profondità e lavorare su informazioni aziendali specifiche;
  • consentono di ottenere approfondimenti sempre aggiornati in tempo reale, sono sempre a portata di mano, proprio perché non richiedono le risorse e l’energia computazionale necessaria ai big data;
  • sono più gestibili rispetto ai dati di larga scala, a causa dei costi, del tempo e dell’energia necessaria per implementare l’apprendimento automatico.

Large and wide language models

In questo particolare momento storico per l’intelligenza artificiale generativa, uno dei cambiamenti più importanti che stiamo vivendo è lo spostamento di attenzione dalle potenzialità dei large and wide language models verso una visione più consapevole che tiene in considerazione le imperfezioni di questi sistemi.

Basti pensare al tema della proprietà intellettuale (IP) e alla violazione di materiali protetti da copyright, o a quello della sicurezza e della privacy per capire la portata degli impatti di questi sistemi, senza dimenticare nemmeno il tema della sostenibilità e dell’impatto ambientale legato al consumo di energia, compreso un aumento delle emissioni di carbonio (ad esempio, la formazione di un modello linguistico di grandi dimensioni può emettere circa 315 tonnellate di anidride carbonica).

Da ultimo è bene ricordare che questi modelli non sono infallibili, ma possono addirittura essere inclini a un fenomeno chiamato ‘hallucination’, ovvero generano risposte che sono plausibili ma non vere, spingendoci a un approccio critico, e a un uso responsabile dell’intelligenza artificiale generativa alimentata da questo tipo di modelli.

Conclusioni

La verità è che, sebbene large and wide language models siano esosi in termini di energia, risorse e spesso generino risultati poco accurati e sostenibili per molte aziende, continueranno a migliorare e a essere preziosi per moltissimi casi d’uso: dalla generazione di testi e immagini, alla suddivisione e classificazione di contenuti, per ottenere risposte veloci ecc.

Tuttavia, ci sono delle limitazioni da tenere in considerazione. E delle soluzioni complementari.

L’approccio small and wide language models sta, infatti, dimostrando la sua validità nell’analisi dei dati e nei processi di decision-making in diversi casi.

Oltre a creare modelli di analytics e di intelligenza artificiale più solidi e sostenibili, si rivelano particolarmente efficaci quando occorre raggiungere alti livelli di precisione e accuratezza dei dati elaborati, trasformandoli in una vera miniera d’oro in grado di aiutare le aziende ad accelerare il proprio processo di crescita.

Per tutti questi motivi possiamo dire che: “No, small and wide language models non sono il futuro dell’intelligenza artificiale, ma fanno già parte del presente”.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 2