L’evoluzione delle imprese verso paradigmi data-driven procede senza sosta, avendo queste ormai assimilato il legame esistente tra la valorizzazione del dato e la loro stessa competitività. La crescita esponenziale nella produzione dei dati, che IDC prevede raggiungeranno i 180 Zettabyte all’anno nel 2025 (1 Zb = 1 miliardo di Tb) solleva sfide che vanno oltre l’accessibilità, l’integrità e la confidenzialità delle informazioni, ponendo in primo piano considerazioni di tipo qualitativo, per esempio sui dirty data.
È infatti ampiamente riconosciuto che solo dati di qualità possono generare valore tangibile per un’azienda, ma anche che ottenerli è una sfida, poiché gli ecosistemi IT diventano sempre più ampi, complessi, distribuiti ed eterogenei, da cui l’esigenza di processi strutturati di data cleansing.
Si comprende così perché i data scientist e i data analyst, pilastri del percorso di trasformazione data-driven, si trovino a trascorrere significative porzioni del loro tempo (il 60%, per l’esattezza) in attività di correzione e miglioramento della qualità dei dati, a scapito dello sviluppo di algoritmi in grado di fornire un impulso reale alle iniziative e al business aziendale.
I Dirty Data sono tutti i dati inaffidabili
Quando si parla di dati di bassa qualità, o Dirty Data, ci si riferisce a informazioni che non sono affidabili, coerenti, complete o valide. Queste informazioni possono essere dovute a diverse cause, più o meno consapevoli: si pensi a colui che inserisce dati fittizi per scaricare un documento in modo anonimo, a errori nelle operazioni di data entry, oppure alla mancanza di standardizzazione nella raccolta e nell’archiviazione dei dati, cosa che può generare variazioni del tutto inconsapevoli.
Spesso, i dati non sono errati in senso stretto, ma più genericamente inaffidabili, cioè forniscono informazioni fuorvianti su cui le imprese elaborano le proprie decisioni, anche quelle di valore strategico. La frammentazione dei sistemi dipartimentali, tipico fenomeno dell’enterprise moderna, esalta questo fenomeno, con tutte le conseguenze del caso. Oltre a poter prendere decisioni errate, può capitare che i manager non concordino sui dati o abbiano informazioni discordanti: in casi come questo, la frammentazione dei sistemi, che preclude lo sviluppo di una single version of the truth, e la scarsa qualità del dato, sono i principali indiziati.
Il costo totale dei dirty data: 3.000 miliardi all’anno, solo in USA
In questo articolo ci soffermiamo sul costo dei Dirty Data, partendo da alcune fonti che ci permettono di contestualizzare il tema e di fornire indicazioni quantitative:
- Secondo Gartner, “le organizzazioni ritengono che la scarsa qualità dei dati sia responsabile di perdite medie di 15 milioni di dollari all’anno”;
- Qualche anno fa, IBM stimò che l’impatto dei bad data sull’intera economia USA fosse quantificabile in 3.000 miliardi di dollari all’anno;
- I dati di scarsa qualità comportano sprechi di budget. Ad esempio, nel marketing, il 38% delle risorse finanziarie non genera valore poiché si basa su informazioni inaffidabili;
- A seconda della complessità e dei volumi di dati da trattare, le attività di data cleansing possono costare fino a 10 mila dollari;
- Jonathan Block, direttore della ricerca di SiriusDecisions (ora Forrester), dichiarò che: “ci vuole 1 dollaro per verificare un record appena inserito, 10 dollari per ripulirlo e de-duplicarlo, e 100 dollari se non si fa nulla, dato che le ramificazioni degli errori si faranno sentire più e più volte“.
Per quanto le attività di data cleansing siano costose e richiedano competenze specialistiche, il prospetto di danni dieci volte superiori dovrebbe indirizzare le aziende verso questa strada.
15 milioni di dollari (all’anno) di decisioni errate?
Il primo effetto dei bad data è la capacità di indirizzare l’azienda verso decisioni che si rivelano errate a tutti i livelli: da un programma di assunzioni all’investimento strategico in una società, da una campagna marketing allo sviluppo e commercializzazione di un nuovo prodotto, fino alle decisioni relative ai prezzi.
Un’azienda che si affida a dati errati per identificare nuove opportunità potrebbe finire per concentrarsi su un settore sbagliato, perdendo un vantaggio competitivo prezioso. Inoltre, l’efficacia delle strategie aziendali può venire compromessa, poiché l’analisi basata su dati distorti produce una visione parimenti distorta della situazione reale.
Condensare l’impatto dei Dirty Data sul business aziendale all’ambito delle decisioni errate non renderebbe giustizia al fenomeno. Esistono infatti molti altri ambiti da considerare: come accennato in precedenza, si può partire dagli sprechi di budget, dalle opportunità mancate e dal costo delle risorse umane. I data scientist, in particolare, sono assunti per risolvere sfide complesse e si trovano a investire più della metà del loro tempo nell’ottimizzazione dei dati esistenti. D’altronde, un errore in questa fase non determinerebbe solo danni materiali, ma andrebbe a minare la fiducia dei leader aziendali nel valore dei dati e nella capacità della divisione stessa. Occorre tener conto anche di questi costi.
L’impatto centrale sulla customer experience
Molto più complesso da quantificare, ma pur sempre determinante, è l’impatto dei Dirty Data sulla qualità della CX, da cui – com’è noto – dipende buona parte del successo delle imprese in termini di vendite, acquisizione di clienti e fidelizzazione.
Quando le informazioni sui clienti sono inesatte o incomplete, perché magari derivano da diverse sorgenti e database eterogenei, il rischio più grande è non poter personalizzare il rapporto. I clienti rischiano di ricevere offerte o messaggi non pertinenti, compromettendo la fidelizzazione. Inoltre, la condivisione di dati di bassa qualità tra i diversi canali di contatto con i clienti può portare a un’esperienza frammentata e incoerente, il cui esempio d’elezione è l’invio di una promozione “mirata” a un cliente che ha già acquistato lo stesso prodotto.
Reputazione, efficienza e sicurezza
Le conseguenze dei dati di bassa qualità si estendono su diverse sfere, tra cui gli aspetti reputazionali dell’azienda, l’efficienza dei processi e la sicurezza. L’impatto sulla reputation è di fatto una conseguenza del punto precedente: l’uso di informazioni inaffidabili o incomplete mina la fiducia dei clienti, dei partner commerciali e degli investitori, compromettendo la credibilità dell’azienda sul mercato. Inoltre, i bad data non solo richiedono una considerevole quantità di tempo e risorse per la correzione, ma frenano le iniziative di automazione dei processi su cui molte imprese stanno investendo, oltre a compromettere l’accuratezza delle analisi e dei report.
La sicurezza dei dati è un’area in cui l’inaffidabilità dei dati può essere una minaccia significativa. Sebbene non siano pericolosi di per sé, essi catalizzano emergenti preoccupazioni sulla sicurezza informatica. Pare infatti che tra le dinamiche di attacco, gli aggressori si stiano concentrando sempre di più sulla manipolazione illecita dei dati per comprometterne l’accuratezza e minare tutte le decisioni basate su di essi, che non riguardano soltanto il business, ma anche la prevenzione e la risposta alle stesse minacce cyber. Si tratta dunque di una minaccia indiretta, ma quanto mai attuale.