Guida

Dati sintetici: perché saranno sempre più importanti e, forse, più accurati

Nel training di modelli di machine learning come nell’ambito della formazione e della ricerca medica, i dati sintetici giocano un ruolo significativo. Sono però ben più numerosi i settori che ne stanno man mano riconoscendo il valore, essendosi accorti che risolvono problemi statistici e di privacy, tempo e risorse. È un mercato che intreccia il…

Pubblicato il 11 apr 2024

Marta Abba'

Giornalista

Pur esistendo dagli anni Settanta, i dati sintetici stanno vivendo proprio ora il loro momento di celebrità ufficiale. Complici il machine learning e l’intelligenza artificiale, ma non solo. Il mondo dell’innovazione tecnologica è diventato più consapevole e capace di valorizzare i dati, riuscendo a passare all’astrazione del concetto di “dati”, più ampio di quello legato ai “classici” dataset di parametri raccolti su campo.

Indice degli argomenti

Introduzione ai dati sintetici

I dati sintetici lo incarnano perfettamente e “non si sporcano le mani” con la realtà, ma ci possono aiutare a comprenderla e a simularla meglio, in alcune occasioni. In caso di difficoltà nel raccogliere grandi volumi di dati “veri”, per esempio, o quando le preoccupazioni per la privacy li rendono un campo minato.

Definizione di dati sintetici

A rendere particolarmente preziosi i dati sintetici in talune condizioni, è la loro stessa natura. Sono infatti totalmente slegati a qualsiasi evento reale, custodiscono informazioni prodotte artificialmente, in modo algoritmico, e in modo che possano essere utilizzati come sostituti di dataset reali, per esempio per convalidare modelli matematici e per addestrare quelli di apprendimento automatico.

Non si tratta del frutto di una cieca voglia di digitalizzare e rendere tutto avulso dalla realtà, ma di una necessità di trovare risposta ad alcuni problemi. Uno dei principali è il costo in termini di euro e di ore che la raccolta dati di alta qualità spesso richiede. A volte è un fattore “invalidante” e solo grazie all’aiuto dei dati sintetici si riescono ad avere rapidamente, facilmente e digitalmente i dati nella quantità desiderata, anche personalizzati secondo le proprie esigenze specifiche.

Utilizzo dei dati sintetici

La più nota e consistente applicazione dei dati sintetici riguarda il training di reti neurali e di modelli di apprendimento automatico. In entrambi i casi, servono infatti almeno migliaia di dati, se non decine di milioni, a volte anche accuratamente etichettati. Una “pretesa” che non sempre fa i conti con le condizioni di raccolta dati effettive in cui un’organizzazione o uno sviluppatore operano.

Entrano quindi in gioco come protagonisti salvifici i dati sintetici che, generati artificialmente per imitare i set di dati reali, permettono di creare un’ampia e diversificata quantità di dati per l’addestramento, spendendo una modesta quantità di denaro e tempo.

Un altro uso ultimamente sempre più prezioso di questi dati artificiali è quello legato alla privacy, soprattutto in ambiti in cui i dati trattati sono personali, sanitari o in qualche modo sensibili. Meno noto ma altrettanto importante per chi usa i dati nel quotidiano, è l’utilizzo di dati sintetici per ridurre le distorsioni nelle serie di dati, in modo che il dataset generale ne contenga di diversificati e capaci di descrivere accuratamente il mondo reale.

Vantaggi dell’utilizzo dei dati sintetici

Già conoscendone tre dei possibili utilizzi, si possono facilmente intuire i vantaggi di questa tipologia di dati. Sono personalizzabili, innanzitutto, quindi chi li crea può farlo a seconda delle esigenze, adattandoli a condizioni specifiche che i dati reali possono non riuscire a soddisfare. Sono anche economici rispetto ai dati reali che, in molte occasioni, richiedono importanti risorse per essere raccolti in modo massiccio e ordinato. Esiste un risparmio significativo anche in termini di tempo, se per generare i dataset di dati si utilizzano il software e la tecnologia giusti.

Utilizzando dati sintetici possiamo anche scordarci problemi statistici come le mancate risposte, gli schemi di salto e altri vincoli logici. Basta specificare le regole per la generazione in modo strategico.

Privacy e sicurezza dei dati

Il capitolo privacy è sempre delicato, quando si parla di dati, ma con quelli sintetici non esiste il pericolo che contengano alcuna informazione che possa essere utilizzata per identificare i dati reali a cui si ispira. Siamo quindi in presenza di dati anonimi, adatti anche alla diffusione “spensierata” e agli usi che spesso ne devono fare i settori sanitario e farmaceutico.

Ampliamento dei set di dati per il machine learning

Tornando nell’ambito machine learning, i dati sintetici in questo caso si confermano particolarmente preziosi perché permettono il pieno controllo da parte dell’utente. Chi li genera, infatti, può scegliere la frequenza degli eventi, la distribuzione degli elementi e molti altri fattori più sofisticati come il grado di separazione delle classi, le dimensioni del campionamento e il livello di rumore nel set di dati. In caso di apprendimento supervisionato, inoltre, i dati sintetici rappresentano un vantaggio anche perché permettono di bypassare l’oneroso problema dell’etichettatura dei dati, assicurandone la presenza e l’accuratezza.

Creazione dei dati sintetici

Può sembrare in apparenza banale generare dati artificialmente ed effettivamente lo è, se non si pretende che descrivano la realtà o che simulino un particolare processo. Se invece è proprio questo ciò che si desidera, come nel caso dei dati sintetici, è piuttosto impegnativo comprendere quale tecnica utilizzare. Esistono alcune opzioni, più o meno costose, più o meno accurate, e altre sono in arrivo.

Tecniche per la generazione di dati sintetici

Una possibilità da valutare consiste nel generare dati rifacendosi a una distribuzione nota. In questo caso serve una eccellente comprensione preliminare della distribuzione del set di dati reali e delle specifiche richieste. Sarà decisiva per creare un dataset “credibile” ed efficace.

Si possono anche adattare i dati reali a una distribuzione ottimale, per poi “giocare” coi parametri e generare punti di dati sintetici. Il metodo solitamente impiegato per stimare una distribuzione best-fit è quello di Monte Carlo, basato su un campionamento casuale ripetuto seguito da un’analisi statistica dei risultati. Consiste nel creare variazioni su un set di dati iniziali in modo così casuale da “mimare” la realtà, è computazionalmente poco costoso ma anche poco accurato.

Sono solitamente di maggiore qualità i dati sintetici generati con tecniche di rete neurale. Le più comuni sono

Variational Auto-Encoder (VAE) – algoritmo non supervisionato che apprendere la distribuzione di un set di dati originali e crea dati sintetici attraverso una doppia trasformazione
Generative Adversarial Network (GAN) – algoritmo basato su due reti neurali che lavorano insieme: una genera punti dati falsi e l’altra impara a distinguere i falsi dai reali. I modelli GAN risultano complessi da addestrare e richiedono un elevato sforzo computazionale, ma garantiscono dataset altamente dettagliati e realistici.

Tra le opzioni da valutare per ottenere dati sintetici c’è anche quella basata sui modelli di diffusione. In questo caso si ha a che fare con algoritmi che “disturbano” i dati di training con rumore gaussiano fino a quando diventano solo rumore. Poi arriva una rete neurale che realizza il processo inverso, un denoising graduale, fino a produrre un nuovo set di dati, stavolta sintetici. Questa tecnica viene spesso scelta per produrre risultati di alta qualità in formato immagine e audio.

Per quanto riguarda il completo processo di generazione dei dati sintetici, per esempio per un’attività di ML, lo si può immaginare diviso in varie fasi, ciascuna con una propria dignità.

Determinare i requisiti aziendali e di compliance. Prima di qualsiasi altra mossa, è essenziale avere ben chiari gli obiettivi del set di dati sintetici e per come verrà utilizzato. Allo stesso tempo, vanno tenuti presenti da subito gli eventuali vincoli come le policy o gli standard, in particolare quelli legati alla privacy.
Scegliere il modello da utilizzare, sapendo che impatterà sulle competenze tecniche richieste e le risorse computazionali necessarie per il progetto.
Costruire il set di dati iniziale, dati reali da raccogliere con cura perché la loro qualità sarà determinante per la qualità dei dati sintetici.
Realizzare e addestrare il modello. Dall’architettura agli iperparametri, tutto è da definire per ottenere il miglior modello possibile da addestrare con i dati campione raccolti.
Valutare i dati sintetici per capire se si è fatto un buon lavoro. Il miglior test consiste nell’inserirli nel modello ML e valutarne le prestazioni su campioni di dati reali.

Accuratezza dei dati sintetici

Al di là dei test che si possono effettuare, resta sempre un dubbio diffidente sull’accuratezza dei dati sintetici. Il fatto di vederli “uscire da una macchina” li rende sospetti. In parte è necessario cambiare atteggiamento nei loro confronti, dall’altro è comunque meglio restare in guardia rispetto a questo e ad altri specifici rischi. Il “peggiore” è quello dell’incoerenza: l’incapacità di replicare la complessità che caratterizza il set di dati originali, rivelandosi non utilizzabili per sostituire completamente i dati autentici.

Sfide e limiti dei dati sintetici

L’accuratezza è la principale preoccupazione che emerge all’idea di affidarsi a set di dati sintetici. Ne esistono altre che devono essere affrontate in modo da non scoraggiarne l’utilizzo ma da renderlo più consapevole e sicuro. È una sfida a cui alcune startup in tutto il mondo si stanno appassionando. Anzi, sono più sfide:

Risultati distorti, ingannevoli o discriminatori a causa della mancanza di variabilità e correlazione
Fasi di verifica lunghe e complesse per confrontare i risultati del modello con le informazioni reali
Perdita di dati anomali presenti nel set di dati originale, dati che possono essere rilevanti per alcune ricerche (outliers)
Dipendenza dai dati reali: la qualità dei dati sintetici dipende molto dal modello reale e dal set di dati sviluppato per la loro creazione
Scetticismo degli utenti che potrebbero chiedere garanzie sulla trasparenza delle tecniche di generazione dei dati e sulla privacy delle loro informazioni.

Casi d’uso dei dati sintetici

Mentre si lavora per mitigare i difetti dei dati sintetici, non resta bloccato il loro utilizzo in diversi ambiti. I vantaggi sono “troppo” significativi per non correre i moderati rischi che prevedono.

Un caso d’uso frequente e diffuso è, per esempio, quello che riguarda i test basati su regole. Questi dati artificiali risultano infatti più facili da ottenere e offrono flessibilità, scalabilità e realismo. Li troviamo anche nell’ambito della formazione, soprattutto ove esiste il forte rischio di violare le norme sulla privacy come in ambito sanitario, assicurativo e finanziario, ma anche in contesti di marketing e customer service.

Addestramento di modelli di machine learning

Un caso d’uso sempre più frequente e di massima importanza per il mondo dell’innovazione tecnologica è quello del training di modelli AI/ML già citato. I dati sintetici, in questo contesto, spesso superano le performance dei dati reali. Si rivelano preziosi anche perché eliminano i pregiudizi e aggiungono nuove conoscenze del dominio e spiegazioni, oltre a essere compliance alla privacy. In caso di etichettatura, come già accennato, permettono poi di risparmiare tempo e denaro, abilitando anche alcune organizzazioni a pre-addestrare i modelli di ML, sfruttando il transfer learning.

Il ruolo crescente dei dati sintetici

L’ampiezza della gamma di possibili utilizzi dei dati sintetici è ancora un parametro da definire perché ogni giorno emergono nuove opportunità. Molte sono legate all’intelligenza artificiale e ai modelli di ML, data la polarizzazione dell’innovazione in questa direzione. Non si arresta, però, la ricerca di nuovi impieghi anche in altri campi meno attenzionati.

Per questo è facile credere alle previsioni di Gartner che stimano una quota di dati sintetici utilizzati nei progetti pari al 70% nel 2024, un balzo incredibile rispetto all’1% del 2021. A questa cifra si unisce quella dello studio di Grand View Research che prevede un mercato globale dei dati sintetici da 1,79 miliardi di euro entro il 2030.

@RIPRODUZIONE RISERVATA

Marta Abba'

Giornalista

Laureata in Fisica e giornalista, per scrivere di tecnologia, ambiente e innovazione, applica il metodo scientifico. Dopo una gavetta realizzata spaziando tra cronaca politica e nera, si è appassionata alle startup realizzando uno speciale mensile per una agenzia di stampa. Da questa esperienza è passata a occuparsi di tematiche legate a innovazione, sostenibilità, nuove tecnologie e fintech con la stessa appassionata e genuina curiosità con cui, nei laboratori universitari, ha affrontato gli esperimenti scientifici.