News

NeurIPS 2022: presentato uno dei primi studi al mondo sulla sintetizzazione e il funzionamento dei dati relazionali

Dal titolo “Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders”, è opera di una startup italiana dedicata ai dati sintetici relazionali in collaborazione con BIP Consulting

Pubblicato il 09 Dic 2022

database relazionali sintetici

Cosa sono i database relazionali sintetici? Come si creano e quali sono i vantaggi per l’evoluzione dell’intelligenza artificiale? Aindo, startup italiana specializzata in dati sintetici fondata nel 2018 da tre giovani specialisti di intelligenza artificiale all’interno della Scuola Internazionale Superiore di Studi Avanzati di Trieste (SISSA), presenta al SyntheticData4ML Workshop uno dei primi studi al mondo sulla sintetizzazione e il funzionamento dei dati relazionali dal titolo “Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders”, realizzato in collaborazione con BIP Consulting.

Il workshop si tiene all’interno di NeurIPS 2022 (Neural Information Processing Systems), tra le più prestigiose conferenze a livello globale sull’intelligenza artificiale, che si svolge a New Orleans dal 28 novembre al 9 dicembre 2022.

I dati sintetici: innovazione nel rispetto della privacy

Avere accesso a una grande quantità di dati per alimentare e addestrare un sistema di AI è indispensabile. Nella fase di raccolta, tuttavia, uno degli ostacoli principali è rappresentato dalla possibilità di accedere a dati compliant alle norme del GDPR. In questo senso, la soluzione è rappresentata dalla tecnologia di generazione di dati sintetici. Si tratta di informazioni create algoritmicamente, ma con un incredibile grado di realismo, che possono essere utilizzate al posto dei dati reali, per addestrare modelli di AI quando i set di dati effettivi sono privati o carenti in termini di qualità, volume o varietà. Di fatto, l’analisi dei dati sintetici porta alle stesse intuizioni dell’analisi di dati reali conciliando l’utilità analitica delle informazioni ad un’eccellente protezione della privacy, a differenza dei tradizionali metodi di anonimizzazione. Questi ultimi, basandosi sul principio di distruzione dell’informazione, riducono l’utilità del dato modificandone spesso la struttura, senza tra l’altro rimuovere del tutto la possibilità di re-identificazione.

I database relazionali sintetici, futuro dell’AI

Tramite la piattaforma di DataOps e data curation tools, consente di sintetizzare formati di dati avanzati, l’azienda presenta a NeurIPS il suo studiochespiega in che modo vengono realizzati i database relazionali sintetici combinando modelli di machine learning generativi, quali Autoencoder Variazionali con strutture neurali a grafo. Nello studio, il metodo sviluppato dal team di ricerca guidato da Sebastiano Saccani, viene applicato a due database disponibili pubblicamente. I risultati ottenuti dimostrano che le strutture dei database reali sono accuratamente conservate nei dataset sintetici risultanti, così come le proprietà statistico matematiche.

Generare dati sintetici relazionali permette idealmente di clonare interi database. Si tratta di un sistema che incentiva lo scambio sicuro dei dati e permette di democratizzare l’innovazione, facilitando collaborazioni e progetti di ricerca innovativi e parallelamente coniugando la spinta da parte dell’Europa alla creazione di open data spaces con le limitazioni imposte dalla GDPR. Questo consente anche di sfruttare a pieno tutte le potenzialità dell’intelligenza artificiale, in grado di rivoluzionare tutti gli aspetti della nostra vita, dalle nuove opportunità di business al processo decisionale, fino alla medicina personalizzata.

dati sintetici Aindo
Daniele Panfilo

“Ad ora la letteratura sul tema risulta ancora piuttosto scarna: in particolare, pur esistendo studi e paper sui dati sintetici, mancano quelli che spiegano come avviene il procedimento di sintesi dei dati relazionali. Con questo lavoro intendiamo ampliare le conoscenze sul tema e mostrare in che modo i dati sintetici relazionali rappresentino il futuro dell’intelligenza artificiale”, spiega Daniele Panfilo, co-fondatore e CEO di Aindo e tra gli autori dello studio.

“L’applicazione di tecniche di sintetizzazione genera grandi opportunità per cogliere il potenziale del machine learning nel settore sanitario. Si potrà accelerare l’accesso e la ricerca su dati clinici ed amministrativi – ospedalieri, di ASL e regionali – strutturati in database relazionali. Migliorare esponenzialmente la gestione della salute, grazie all’intelligenza artificiale e rispettando tutte le regole di privacy, non è più solo un’opportunità, ma una necessità”, commenta Marco Volpe, fondatore e responsabile della Practice Life Sciences di BIP.

Sebastiano Saccani

“La combinazione di modelli generativi e di reti neurali su grafo permette finalmente di poter rappresentare efficacemente le distribuzioni probabilistiche complesse nei dataset relazionali. Più in generale, la rappresentazione a grafo per i dataset relazionali permette la costruzione di modelli di machine learning efficaci sulla struttura originale del dataset stesso, andando a ridurre notevolmente lo sforzo di feature engineering”, spiega Sebastiano Saccani, Head of R&D e co-founder di Aindo.

Gli autori del paper “Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders” sono: Ciro A. Mami, Andrea Coser, Eric Medvet, Alexander T.P. Boudewijn, Marco Volpe, Michael Whitworth, Borut Svara, Gabriele Sgroi, Daniele Panfilo, Sebastiano Saccani.

Lo studio è consultabile a questo link.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati