La data anonymization è una procedura che offre informazioni anonime ovvero senza associarle a una persona fisica identificata o identificabile, dunque si differenzia dalla pseudonimizzazione che attribuisce uno “pseudonimo” a ogni dato per renderne difficile l’identificazione.
I dati personali si suddividono in dati identificativi, particolari, biometrici, anonimizzati e pseudonimi. Ecco cosa significa l’anonimizzazione dei dati, qual è il suo impiego e quali strumenti utilizza.
Cos’è la data anonymization
La data anonymization è una procedura che si avvale di tecniche di alterazione dei dati attraverso strumenti ad hoc, per evitare il tracciamento di individui specifici, ma mantenendo il format dei dati e l’integrità referenziale. Quest’ultima è la proprietà che garantisce che la coerenza fra relazioni e tabelle.
Aziende ed organizzazioni usano questo approccio per conformarsi con le stringenti normative di data privacy che richiedono la protezione dei Personally identifiable information (PII) come informazioni di contatto, dati sanitari o dettagli finanziari.
I dati da anonimizzare
I rigorosi requisiti del GDPR forniscono un utile benchmark per i data type da proteggere, indipendentemente dal fatto che un’azienda archivi o processi PII su cittadini europei. Il GDPR definisce le informazioni personali “tutte quelle informazioni relative a un data subject identificato o identificabile” che include i seguenti dati: le informazioni d’identità di base come nome, indirizzo e numero della carta d’identità ID; dati web come localizzazione, indirizzo IP, dati dei cookie e c tags; quelli sanitari e genetici; dati biometrici; dati che rivelano l’origine razziale o etnica, le opinioni politiche o l’orientamento sessuale.
Perché la data anonymization è utilizzata
L’anonimizzazione avviene esclusivamente quando non è possibile in alcun modo in grado di risalire ai dati specifici di un titolare del trattamento, dal momento che non è più in possesso (o non lo è mai stato) delle informazioni complete.
La data anonymization è utilizzata per aiutare le aziende a mantenere i PII privati, mascherando gli attributi sensibili, anche se generano valori provenienti da supporto clienti, insights di analytics, dati di test, finalità di esternalizzazione del fornitore eccetera.
Data masking e anonymization
Quando si sviluppano processi aziendali o procedimenti amministrativi, bisogna a volte condividere dati personali contenuti nei propri database, aumentando però il rischio di data breach. Il data masking, misura tecnica per l’offuscamento dei dati, evita questo problema.
Il data masking rappresenta, infatti, una procedura di offuscamento dei dati, impiegata nell’era della GDPR per offrire un livello di sicurezza adeguato rispetto al rischio e per tutelare la riservatezza nell’arena dei big data.
I metodi di data masking permettono di offrire risposte alla parte di normativa del Regolamento Europeo sulla Data Protection (GDPR) che punta a delimitare i rischi dell’eccesso di profilazione. L’irreversibilità del processo de-identificativo delol’anonymization, invece, conduce all’anonimizzazione dei dati, dunque, all’esterno del campo di applicazione del GDPR.
In alcuni casi è possibile servirsi di una tecnica di anonimizzazione dei dati, mediante la tecnica di Data masking.
L’anonimizzazione consente invece di ottenere informazioni anonime, impedendo di risalire a un soggetto fisico. Annulla la correlazione fra i dati personali e una persona. Un’anonimizzazione adeguata impedisce di ricondurre alle informazioni originali.
Tool di anonimizzazione
L’anonimizzazione si ottiene tramite la sottrazione dell’elemento identificativo dal dato. Si usano tecniche che si suddividono in due famiglie: la randomizzazione e la generalizzazione.
La randomizzazione è in grado di apportare modifiche al livello di verità del dato per eliminare la correlazione esistente tra dato e persona. Ricadono sotto questa tecnica, la permutazione, la differential privacy e l’aggiunta di rumore statistico.
La generalizzazione si avvale della diluizione degli attributi delle persone interessate, cambiandone la rispettiva scala o ordine di grandezza. Ricade in questa famiglia la k-anonymity e le sue varianti, che consiste nell’indicare una fascia d’età invece dell’età precisa del soggetto o una regione anziché la città di residenza.
I programmi automatizzati per anonimizzare i dati reali permettono di svolgere la consultazione di un’anagrafica di clienti, codici fiscali,fornitori, lista fatture e carte di credito, mail o indirizzi, mantenendo la coerenza dei vari campi, rendendola leggibile a chi effettua i test, senza violare la privacy degli interessati.
I tool di anonimizzazione segnalati dal NIST sono:
- Approximate Minima Perturbation (AMP);
- ARX Data Anonymization Tool (open source);
- Chorus (strumento per rispondere a query SQL con privacy differenziale);
- Differential Privacy Synthetic Data Challenge Algorithms (DP_WGAN-UCLANESL);
- DPFieldGroups;
- DPSyn;
- rmckenna;
- Differentially Private Stochastic Gradient Descent (DP-SGD);
- Diffprivlib;
- Duet;
- Ektelo;
- Google Differential Privacy Library;
- GUPT: sfrutta algoritmi statistici/machine learning trattando l’algoritmo sottostante come black-box;
- PixelDP;
- Privacy Protection Application (PPA):de-identifica i database che contengono dati sequenziali geolocalizzati, a volte detti ‘moving object database’;
- Private Aggregation of Teacher Ensembles (PATE): differenzia il private learning, coordinando l’attività di differenti modelli ML.