Metodi, modelli e tecnologie per la data privacy

In un mondo sempre più digitale, dove i nostri dati risiedono in centinaia di database, come proteggere la privacy? Dalla ricerca scientifica, un progetto basato su reti bayesiane ed analytic hierarchy process, per sviluppare un modello atto a garantire la data privacy, è il vincitore del premio TR35 – giovani innovatori organizzato dal Forum Ricerca Innovazione Imprenditorialità e da Technology Review del MIT.

Pubblicato il 19 Ott 2011

Gli strumenti e le risorse dell’Ict, lo sviluppo di modelli di ubiquitous computing e di servizi computer-assisted hanno cambiato la natura di molte discipline, caratterizzando queste ultime per l’enorme tasso di produzione di dati. La registrazione, l’accesso e la diffusione di informazioni influiscono in modo determinante sul progresso della conoscenza e sull’economia dei Paesi. Molte organizzazioni raccolgono dati che possono avere una grande utilità sociale; ad esempio, gli istituti statistici nazionali che raccolgono informazioni, provenienti da individui e organizzazioni e le diffondono a ricercatori, media, agenzie governative, aziende e organizzazioni no profit. Le informazioni raccolte vengono utilizzate per lo studio degli effetti dei trattamenti su una malattia, il monitoraggio delle epidemie, l’assegnazione dei fondi pubblici, la costruzione di modelli economici (da dati del censimento) e le analisi di tendenza.
Poiché tali insiemi di dati contengono anche informazioni sensibili, come la malattia di un individuo o il salario di un lavoratore dipendente, è necessario equilibrare la raccolta e la diffusione dei dati con l’aspettativa di privacy e gli obblighi giuridici.
Obiettivo della Data Privacy è lo sviluppo di soluzioni computazionali che consentano la raccolta e la diffusione di dati ma contemporaneamente proteggano i dati sensibili di un individuo. Un’area di ricerca molto vicina a quella della Data Privacy è quella della sicurezza, il cui l’obiettivo è assicurarsi che l’utente abbia i diritti ad accedere all’informazione e quindi si utilizzano meccanismi di autenticazione e controllo dell’accesso; nell’ambito della Data Privacy, invece, il problema consiste nell’assicurarsi che nessun processo inferenziale [procedimento che consente di determinare una conclusione date alcune premesse; in particolare, l’inferenza probabilistica consente di calcolare la distribuzione di probabilità di un insieme di variabili di interrogazione, data l’osservazione di alcuni eventi ndr] sui dati forniti all’utente sia in grado di violare la privacy. In figura 1 è riportato un esempio di violazione della privacy.

Figura 1 – Nel 1997, un docente della Carnegie Mellon University dimostrò come l'intersezione di due database pubblici fosse in grado di rivelare la malattia di William Weld, governatore del Massachusetts
(cliccare sull'immagine per visualizzarla correttamente)

Tra le soluzioni proposte in letteratura per proteggere la privacy, la k-anonymity consente di anonimizzare le tabelle attraverso generalizzazioni e soppressioni rendendo ogni record indistinguibile da almeno altri k-1 record (figura 2).

Figura 2 – Esempio di "anonimizzazione" di una tabella attraverso generalizzazioni e soppressioni (k-anonimity)
(cliccare sull'immagine per visualizzarla correttamente)

Un progetto innovativo per la protezione della privacy
Con il progetto “Bayesian network and Analytic Hierarchy Process for Data Privacy”, premiato da TR35-GI, organizzato dal Forum Ricerca Innovazione Imprenditorialità e da Technology Review, rivista del MIT (Massachusetts Institute of Technology), si propongono soluzioni innovative per la protezione della Data Privacy. Il TR35-GI ha premiato, infatti, 10 progetti di ricerca applicata che presentavano potenzialità di creazione di nuove imprese e che intendevano sviluppare nuove tecnologie, metodi e modelli, o applicare in maniera creativa quelli esistenti, per risolvere problemi concreti.
I principali obiettivi del progetto sono:
– Migliorare gli strumenti per preservare la privacy in database statistici, ovvero in sistemi che consentono agli utenti di recuperare solo informazioni aggregate (massimo, minimo, somma, media, conteggio, ecc.) e che sono utilizzati specialmente per realizzare indagini statistiche e costruire modelli. Si utilizzano reti Bayesiane [modelli grafici probabilistici per la rappresentazione e l’analisi di modelli che coinvolgono incertezza ndr] per assicurarsi che nessuna inferenza probabilistica sui dati forniti all’utente violi la privacy e tecniche della teoria delle decisioni [che analizza le metodologie ottimali per prendere decisioni efficaci ndr] e dell’utilità attesa [teoria che si basa sull’ipotesi che l’utilità di un agente in condizioni di incertezza possa essere calcolata come una media ponderata delle utilità associate a ciascun esito, utilizzando come pesi le probabilità del verificarsi dei singoli esiti ndr] per stimare il trade-off utilità-rischio del modello Bayesiano.
Il progetto propone una formulazione probabilistica dell’on-line auditing attraverso reti Bayesiane; nell’on-line auditing le query statistiche sono risposte in sequenza e l’auditor deve determinare se la privacy è violata dopo una nuova query; a differenza della k-anonymity, i dati non sono modificati a priori. L’utilizzo delle reti Bayesiane consente di:
fornire a run-time una rappresentazione grafica della conoscenza dell’utente e fare inferenza su di essa;
– non conservare i log delle query;
– gestire combinazione di query di tipo massimo/minimo (max/min) o query di tipo somma (sum) su un dominio booleano;
– affrontare il caso in cui negare una query può rivelare informazione;
– catturare conoscenza di background dell’utente;
– gestire database dinamici.
Il lavoro futuro consisterà nel:
– modellare la combinazione di differenti query statistiche;
– valutare la scalabilità dell’approccio Bayesiano per applicazioni multi-utente;
– quantificare l’utilità del sistema;
– considerare una rete Bayesiana come un framework unificante includente l’interazione di vari domini di incertezza.

– Migliorare i modelli per assegnare le priorità ai requisiti di privacy. La Data Privacy ha un ruolo centrale in molte delle applicazioni moderne (dai social network, ai sistemi Gps, al cloud computing ecc.); è quindi necessario pianificare un sistema tenendo conto sin dall’inizio dei requisiti di privacy che esso deve soddisfare. Così come i requisiti funzionali di un software devono essere analizzati sin dall’inizio per assicurarsi che il sistema incontri tutte le esigenze dell’utente in termini di servizi, allo stesso modo i requisiti di privacy devono essere definiti sin dall’inizio per soddisfare le esigenze dell’utente e contemporaneamente, rispettare gli standard e la legislazione in materia di protezione dati e privacy.
Il progetto propone una generalizzazione delle matrici di confronto a coppie (Pcm – Pairwise comparison matrix) per assegnare le priorità ai requisiti di privacy e rappresentare le preferenze dell’utente in modo sistematico, in maniera tale che le politiche di privacy possano essere applicate nel sistema.
Le Pcm svolgono un ruolo fondamentale nell’Analytic Hierarchy Process (Ahp), una procedura sviluppata dal matematico americano Thomas Saaty alla fine degli anni ‘70, per affrontare decisioni complesse. L’Ahp (figura 3) fornisce un quadro completo e razionale per strutturare un problema decisionale, per rappresentare e quantificare i suoi elementi, per relazionarli rispetto agli obiettivi globali, per valutare soluzioni alternative. È utilizzato in tutto il mondo in un’ampia varietà di situazioni decisionali, in settori quali la pubblica amministrazione, economia, industria, sanità e formazione.

Figura 3 – Analytic Hierarchy Process con 3 livelli
(cliccare sull'immagine per visualizzarla correttamente)

Negli ultimi venti anni, l’Ahp è stato oggetto di alcune critiche, tra le quali:
– può portare al fenomeno del “Rank Reversal”: aggiungendo o eliminando un’alternativa o un criterio, si può generare un’inversione nell’ordinamento dei precedenti. Siccome l’insieme dei requisiti di privacy potrebbe non essere fissato ex-ante, ma variabile e determinato in fasi successive, l’applicazione dell’Ahp potrebbe fallire;
– l’assunzione della scala di Saaty S={1/9, 1/8, 1/7, 1/6, 1/5, ¼, 1/3, ½, 1, 2, 3, 4, 5, 6, 7, 8, 9} limita la possibilità del decisore di essere coerente nell’esprimere le proprie preferenze. Per esempio: se il requisito di privacy x1 è preferito 4 volte al requisito di privacy x2 e x2 è preferito 3 volte a x3, allora il decisore è coerente se e soltanto se x1 è preferito 12 volte a x3; siccome 12 non è presente nella scala di Saaty allora il decisore non potrà mai essere coerente. Anche l’assunzione di una qualsiasi scala chiusa e limitata presenta lo stesso svantaggio;
– l’autovettore destro associato all’autovalore massimo è stato considerato da Saaty come vettore priorità; tuttavia esso non soddisfa la condizione di “independence of scale-inversion” e pertanto può verificarsi che se il decisore valuta i requisiti di privacy su di una scala o su quella inversa ottiene priorità diverse.
Il progetto propone, attraverso una generalizzazione delle Pcm in grado di rimuovere i limiti dell’approccio classico, l’assegnazione delle priorità ai requisiti di privacy nei seguenti contesti: Cloud Computing Services, E-banking, E-voting, Social network.

* = Bice Cavallo (nella foto), ricercatrice presso l’Università degli Studi di Napoli Federico II e vincitrice del premio TR35-GI, organizzato dal Forum Ricerca Innovazione Imprenditorialità e da Technology Review, rivista del MIT per il progetto “Bayesian network and Analytic Hierarchy Process for Data Privacy”. Le sue principali pubblicazioni, relative a tecniche e modelli innovativi applicati a problematiche di Data Privacy, sono reperibili qui.