ANALISI

Augmented Data Quality: come l’AI aiuta a gestire meglio i dati (e viceversa)



Indirizzo copiato

I benefici di una qualità dei dati avanzata sono bidirezionali: da un lato, l’intelligenza artificiale è messa a supporto della “fabbrica dei controlli” sul patrimonio informativo; dall’altro, si ottengono più dati affidabili per alimentare correttamente i modelli AI & ML e ottenere risultati concreti

Pubblicato il 14 gen 2025

Mauro Tuvo

Principal Advisor di Irion

Mario Vellella

Domain Advisory Manager di Irion



augmented data quality

Il 2024 è stato un anno importante per la data economy in Italia, con una crescita del 20% registrata a novembre dall’Osservatorio Big Data & Business Analytics del Politecnico di Milano. Ma la stessa ricerca evidenzia come siano appena il 24% le aziende soddisfatte della qualità dei propri dati. Non mancano lievi progressi, ma sono ancora molto ampi i margini di miglioramento.

Le aziende più mature stanno democratizzando l’accesso ai dati: sono in aumento gli utenti non esperti che usano report e dashboard, mentre viene rafforzata la Data Governance con policy e ruoli più adeguati. Tuttavia, il 41% delle imprese non riesce ancora a misurare i benefici (alias: quantificare gli impatti sulle voci di bilancio) di una gestione proattiva dei dati. E spesso dispongono di architetture obsolete che ostacolano l’adozione dell’AI. Cosa serve allora per “sbloccare” il valore dei dati?

I dati aziendali come asset strategico

Chiunque si interessi o si occupi a livello professionale di dati sa quanto da sempre sia stimolante lavorare con loro e quanto lo sia oggi in particolare grazie al riconoscimento del loro potenziale nella creazione del valore d’impresa. Negli ultimi anni ha preso consistenza nelle aziende e nelle istituzioni la consapevolezza della necessità di riconsiderare cosa genera valore in un’organizzazione, integrando ai tre fattori tradizionali (Processi, Persone, Tecnologie) un quarto asset, i dati.

augmented data quality
Figura 1- I dati nel sistema di valori di un’organizzazione

Questa trasformazione impone di governare alcune criticità di questo nuovo asset aziendale – come vulnerabilità, ambiguità e scarsa affidabilità al fine di massimizzarne il valore aziendale.

L’evoluzione del Data Management

In questo senso, il framework DAMA Wheel (disegnato negli anni ottanta dalla principale associazione mondiale degli esperti di Data Management) è un caposaldo nel corpus teorico, perché ha contribuito a definire l’elenco delle 11 discipline (“Knowledge Area”) da considerare nella cura dei dati:

  • Data Architecture
  • Data Quality
  • Metadata
  • Data Warehousing & Business Intelligence
  • Reference & Master Data
  • Document & Content Management
  • Data Integration and Interoperability
  • Data Security
  • Data Storage & Operation
  • Data Modeling & Design
  • Data Governance

Dopo 40 anni, questa tassonomia è ancora un punto di riferimento per molte istituzioni e aziende. Ha ispirato molte normative per regolare settori di mercato, tra cui i servizi finanziari. Nel tempo, il modello DAMA è stato oggetto di integrazioni, anche in risposta all’evoluzione delle tecnologie e all’avvento di nuovi paradigmi del Data Management, tra cui DataOps, Data Fabric, Data Mesh e fattori innovativi, come la crescente sensibilità dell’opinione pubblica e delle istituzioni verso gli aspetti etici, sociali e ambientali (oggi riassunti nella sigla ESG).

Dati di qualità per tutti (e per addestrare l’AI)

L’introduzione di nuovi design concept e architetture mira a rendere i dati più accessibili e utili, ottimizzando i processi aziendali: questa gestione (trasversale) è influenzata da fattori esterni come normative, modelli di business data-driven e innovazioni tecnologiche. Tra queste, l’AI spicca per la sua crescente diffusione, soprattutto grazie ai modelli generativi, nonostante i confini di applicazione siano ancora in evoluzione.

L’AI Act, entrato in vigore ad agosto 2024, integra una definizione normativa dell’AI, evidenziando il legame con i dati usati per addestrarla: qualità e affidabilità degli output dipendono infatti dai training dataset utilizzati. Le tecniche di Machine learning e i Large Language Model funzionano grazie ai dati che sono stati utilizzati per il loro addestramento, per il loro collaudo, per la loro convalida. La qualità degli output che essi producono è strettamente dipendente da alcune nuove caratteristiche di questi dati. che, come detto, alimenteranno un sistema che dovrà produrre contenuti, previsioni, raccomandazioni e decisioni affidabili e di qualità.

La norma Ue definisce così un sistema AI: “[…] un software sviluppato con una o più delle tecniche e degli approcci elencati nell’allegato I[1], che può, per una determinata serie di obiettivi definiti dall’uomo, generare output quali contenuti, previsioni, raccomandazioni o decisioni che influenzano gli ambienti con cui interagiscono”.

Per rispondere a queste sfide, il Data Management deve evolversi e garantire decisioni più rapide, basate su dati “AI-ready”, adeguandosi alle discipline fondamentali e integrando tecniche specifiche per alimentare sistemi intelligenti di alta qualità.

L’evoluzione tech a supporto dell’AI-ready Data Management

L’evoluzione dei requisiti di affidabilità dei dati e delle tecniche di gestione per rendere i dati più disponibili costituiscono uno stimolo prezioso per l’evoluzione delle piattaforme di Enterprise Data Management. Molte tra le funzionalità necessarie a rispondere alle nuove esigenze di gestione dei dati richieste dall’AI, in realtà, sembrano ripercorrere quanto già sviluppato per gli altri temi “hype” affrontati dal mercato negli ultimi anni: Data Democratization, gestione dei dati come prodotti, Data Value, Big Data, etc.

Tale evidenza è confermata da una ricerca del Politecnico di Milano, svolta in collaborazione con Irion, su un campione di medio-grandi imprese italiane. Le imprese coinvolte sono realtà che non hanno come core business la tecnologia o l’offerta di servizi tecnologici.[2] Secondo quanto emerso, oltre il 74% delle organizzazioni che si dichiarano “AI-ready” non vede un impatto dell’introduzione dell’AI nei loro processi di gestione dei dati, mentre il restante 26% crede che essa possa in effetti avere un concreto impatto positivo (figura 2).

augmented data quality

Questa evidenza è, a nostro avviso, sintomo di una percezione ancora non chiara delle potenzialità dell’AI, anche perché, d’altra parte, esiste una reale e sempre più forte necessità di un supporto automatico nelle attività di gestione dei dati, di cui proprio l’intelligenza artificiale è particolarmente “vorace”.

Emerge la necessità di Data Management capability efficienti e flessibili per velocizzare i tempi, abbattere le barriere all’ingresso e allargare la platea delle risorse coinvolte nelle attività di preparazione dei dati. In modo da poter utilizzare, tempestivamente, dati affidabili e fit-for purpose.

Quindi il mercato sembra cercare strumenti che consentano (sotto la supervisione umana) di:

  • velocizzare attività dispendiose e ripetitive
  • raccomandare azioni sui dati dove la conoscenza è limitata
  • prevedere mappature e associazione semantiche inferendole dati stessi
  • consigliare decisioni sui dati e sugli impianti di controllo

Sono tutte necessità che per definizione l’AI è in grado di soddisfare: in altre parole, per gestire l’AI sembra necessario introdurre l’AI per migliorare gli strumenti del Data Management.

AI e dati: dall’NLP al rule mining

Nel 1961, il presidente Kennedy pronunciò la famosa frase: “Ask not what your country can do for you – ask what you can do for your country”. Parafrasando queste parole, potremmo ribaltare il paradigma “dati per AI” e provare a capire come l’intelligenza artificiale può contribuire alla cura dei dati. E in effetti molti sono gli esempi di applicazione virtuosa. Nel mondo della Data Quality, ad esempio, l’AI gioca (assieme ai grafi semantici e ai metadati attivi) un ruolo chiave in quella che gli analisti hanno battezzato Augmented Data Quality.

Un termine che raccoglie tecniche, modelli, tecnologie in grado di automatizzare, accelerare, semplificare i processi di controllo, monitoraggio e miglioramento qualità dei dati.

  • L’impiego combinato di tecniche NLP (Natural Language Processing) e Generative AI permette, partendo dalle informazioni presenti in un Data Catalog, di suggerire controlli di qualità di questi campi direttamente in codice software, ad esempio in linguaggio SQL.
  • Con gli stessi metodi si possono anche interpretare frasi espresse in linguaggio naturale, ad esempio raccolte in un documento di requisiti funzionali di un’applicazione informatica e di generare tutto il codice necessario alla predisposizione (ad esempio filtri e aggregazioni) e all’applicazione di controlli di qualità.
  • L’applicazione di algoritmi di association rule mining (quali ad esempio Apriori) consente di identificare potenziali regole di associazione tra valori di dati e di suggerire controlli che verifichino il rispetto di tali regole.

Ma non finisce certo qui. Si possono pianificare una serie di attività essenziali per il presidio del patrimonio informativo di un’azienda data-driven. E comunque l’impiego dell’AI nel Data Management è ancora in parte territorio inesplorato: l’AI stessa è una disciplina in continua evoluzione, con potenzialità ancora inespresse.

Settori fortemente regolamentati, come i servizi finanziari, possono sviluppare soluzioni AI per verificare automaticamente la compliance di uno o più dataset (o di una o più applicazioni di intelligenza artificiale!) alle normative di settore vigenti o in via di definizione. Un’azienda data driven che ha nel suo piano strategico riferimenti espliciti o indiretti al valore del proprio patrimonio informativo potrebbe invece pensare di sviluppare applicazioni AI per valutare la coerenza dei propri dati e/o del loro utilizzo rispetto agli obiettivi strategici.

AI e Data Platform

Queste considerazioni ridefiniscono le caratteristiche principali di una moderna Data Platform, progettata per una gestione efficace del patrimonio informativo aziendale:

  • Approccio dichiarativo: riduce il lavoro manuale automatizzando i processi. Permette agli utenti di concentrarsi sui risultati desiderati, grazie alle capacità dell’AI di ottimizzare passaggi sia tecnici che di business
  • Orientamento all’utente: bilancia semplicità d’uso e ricchezza funzionale, adattandosi ai diversi ruoli e competenze (tecniche e di business) presenti nell’organizzazione
  • Dinamicità funzionale: offre strumenti interni per creare nuove funzionalità attraverso microservizi e algoritmi avanzati, senza dipendere esclusivamente da aggiornamenti di release
  • Interoperabilità: garantisce integrazione con strumenti esterni tramite connettori, adapter e API, creando un ecosistema flessibile e scalabile (“composable”)

I metadati costituiscono la base per il corretto funzionamento di una Data Platform efficace, senza una gestione attiva dei metadati, sia descrittivi che attuativi, non è agevole sfruttare i modelli di AI per efficientare i processi di preparazione dei dati.

Si tratta di aspetti fondamentali per supportare l’impiego efficace dell’AI, mentre altre caratteristiche potranno abilitare i nuovi paradigmi emergenti (e che emergeranno) nel Data Management moderno.

Articoli correlati

Articolo 1 di 4