Cos’è il data management
Il data management è l’insieme delle attività associate alla gestione e alla governance dei dati.
La principale organizzazione internazionale di settore, la DAMA – Data Management Association, lo definisce come “lo sviluppo e l’esecuzione di architetture, politiche, pratiche e procedure che gestiscono correttamente le esigenze dell’intero ciclo di vita dei dati di un’azienda” o anche come “la pianificazione, l’esecuzione e la supervisione di politiche, pratiche e progetti che acquisiscono, controllano, proteggono, consegnano e aumentano il valore dei dati e delle risorse informative“.
I dati costituiscono infatti uno dei maggiori asset aziendali: come raccoglierli da fonti eterogenee, in tempi differenti, e organizzarli, integrarli, certificarli e renderli accessibili e utili alle decisioni?
Il data management si occupa dell’intero processo: dalla pianificazione all’esecuzione fino al monitoraggio.
Video – Enterprise Data Management, che cos’è? – DAMA Australia, sezione di Canberra – (in inglese con sottotitoli)
Come funziona il data management
Il data management comprende: la Data preparation, il Data access, la Data quality, la Data integration, la Data federation, la Data governance.
La Data preparation, o preparazione dei dati, è l’attività che serve a organizzare i dati provenienti da fonti eterogenee e non ancora elaborati, prima dell’inserimento in database.
Si divide a propria volta in diverse fasi: Data cleaning, Feature selection e Feature trasformation.
La fase di pulizia o Data cleaning, unisce i dati doppi, riconosce gli outliers, ovvero le eccezioni, elimina i dati non completi e il “rumore”, ovvero i valori non utili all’analisi.
Segue la Feature selection, ovvero la fase in cui vengono definite le caratteristiche dei dati più rilevanti rispetto agli scopi di analisi ed escluse quelle irrilevanti e ridondanti attraverso specifici filtri, confronti statistici, metodi di apprendimento automatico.
Infine, la Feature transformation è la fase di trasformazione dei dati nel formato più utile, attraverso operazioni di scaling, che scalano il valore delle grandezze considerate per un confronto più immediato, di aggregazione, che combinano i valori di caratteristiche simili o di filtraggio, che rimuovono caratteristiche indesiderate.
La Data preparation è fondamentale per un data management efficace e richiede la maggior parte del tempo dell’intero processo di gestione: i dati non elaborati vengono così trasformati in output pronti per essere analizzati.
Il Data access comprende tutte quelle attività che favoriscono l’accesso ai dati, ovvero la capacità di recuperare informazioni da qualsiasi fonte e in qualsiasi formato: file di testo, database, email, feed dei social. Fanno parte delle tecnologie di Data access i driver di database e i convertitori di documenti, che servono a valutare il formato del dato, i luoghi e i modi della sua archiviazione.
La Data quality racchiude tutte le operazioni che servono a garantire che il dato sia accurato e utilizzabile per gli scopi previsti: più il dato è accurato, più è valorizzabile al momento dell’analisi. La Data Quality monitora i diversi processi del ciclo di vita del dato, dall’accesso al database aziendale ai punti di integrazione con dati differenti fino al caricamento nei sistemi di destinazione.
Proprio della combinazione dei dati si occupa la Data integration, che unifica i risultati provenienti da sistemi diversi per una visione complessiva del fenomeno da analizzare. Un’azienda ha infatti a disposizione diverse tipologie di dati: dati machine to machine, generati dall’interazione tra dispositivi elettronici; dati people to machine, dall’interazione tra persone e dispositivi; dati people to people, dall’interazione tra persone; public admin data, dati presenti in database pubblici; enterprise data, dati presenti all’interno dei database aziendali. Queste diverse categorie tradizionalmente venivano immagazzinate per silos, ovvero in repository (depositi) organizzati per dipartimento aziendale e isolati tra loro. Si è poi passati al Data warehouse, l’archivio che integra tra loro dati strutturati, al Data lake, l’archivio che conserva i dati non strutturati da diverse fonti nel loro formato, fino a modelli che fanno funzionare contemporaneamente entrambi gli archivi. Tra i più comuni strumenti di data integration ci sono gli ETL – Extract, Transform, Load e gli ELT – Extract, Load & Transform, algoritmi che si differenziano rispetto ai tempi di esecuzione della “trasformazione/integrazione”, svolta prima o dopo il caricamento sul database finale.
La Data federation è l’evoluzione della Data Integration, perché integra virtualmente i dati archiviati in luoghi diversi senza creare un altro “contenitore” fisico. Riesce così a coprire contemporaneamente più sistemi e database, aggiornando il risultato “alla fonte” e riducendo i tempi di rilascio di nuovi archivi virtuali, utilizzabili in modo più flessibile rispetto alle esigenze.
La Data governance allinea la gestione dei dati alle strategie aziendali: dagli obiettivi di sviluppo alla compliance normativa, detta le regole di funzionamento e monitoraggio dei processi. Automatizza processi operativi ma garantisce la tracciabilità della filiera di gestione all’interno e all’esterno dell’organizzazione.
Come fare data management in azienda
Qual è la cultura del dato dell’organizzazione? Quanto le decisioni prese sono supportate dall’analisi dei dati a disposizione? Da dove vengono presi questi dati, dove e come vengono conservati e incrociati?
Un data management efficace non può non partire da queste domande e da un’approfondita analisi del contesto, che descriva i processi esistenti, identifichi i bisogni dell’organizzazione e solo dopo si focalizzi sulle modalità che consentano di soddisfarli e che siano quindi allineate agli obiettivi complessivi di sviluppo strategico.
Il data management impatta sui comportamenti delle persone oltre che sui processi di business: una volta definiti gli obiettivi da raggiungere, è necessario quindi formare un team di lavoro multidisciplinare che definisca un vocabolario comune. Ovvero, le definizioni che stabiliscano un linguaggio comune sul significato e l’uso di ciascun dato, sulla divisione delle responsabilità nei processi, sui criteri che definiscono la qualità del dato, sulla condivisione delle procedure da parte di tutta l’azienda. Utile creare un business case specifico, su cui testare il modello, e impostare un sistema di monitoraggio che misuri i progressi e i risultati raggiunti.
Una volta definiti gli obiettivi, esistono diverse soluzioni informatiche che possono supportare l’azienda nel raggiungerli.
Ad esempio, i dati anagrafici (Master Data), non solo quelli di prodotto ma anche quelli relativi a fornitori, trasportatori, distributori e clienti, vengono oggi gestiti attraverso soluzioni di Master Data Management, piattaforme che si integrano con i software già esistenti in azienda per creare un unico archivio/repository che aggiorna automaticamente tutti i database secondari. L’interfaccia visibile è un catalogo di prodotti elettronico, su cloud, utilizzato per lo scambio di informazioni tra venditori e fornitori.
Le soluzioni più avanzate di MDM si integrano con i software: ERP – Enterprise Resource Planning, di gestione dei processi; PLM – Product Life Management, di gestione del ciclo di vita del prodotto; CRM – Customer Relationship Management, di gestione delle relazioni con il cliente; CMS – Content Management System, di gestione dei contenuti; nonché e-commerce.
I vantaggi per le aziende
Il capitale dei dati è capitale aziendale: il Data Management consente di valorizzare un asset strategico ponendolo a servizio degli obiettivi di sviluppo dell’organizzazione.
Dati dalla qualità certificata, inseriti in processi di elaborazione finalizzati su misura, diventano un concreto supporto alle decisioni, migliorando la produttività e la reattività dell’azienda.
Gestire i dati in modo efficace porta ad identificare, monitorare e anticipare i rischi legati alla sicurezza, alla privacy e alla compliance normativa; a evitare sprechi di tempo e risorse nella correzione di errori; a chiarire le richieste e distinguere le diverse responsabilità dei dipartimenti aziendali; ad aumentare la trasparenza nei processi, anche informatici, sull’impostazione delle metriche di risultato; a migliorare la collaborazione dentro e fuori l’azienda; a risparmiare risorse attraverso l’automazione e la semplificazione delle attività.