La data integration è il processo in grado di offrire una visione a 360 gradi dei dati derivanti da molteplici e differenti fonti. Una reale necessità in era di multi-cloud, Internet of Things e gestione di big data.
Ecco cosa significa l’integrazione dei dati, un must per le aziende innovative, essendo un prerequisito per sviluppare analisi evolute, da cui estrarre nuova conoscenza.
Cos’è la data integration
L’integrazione dei dati è il processo che unisce i dati che derivano da più sorgenti diverse, in modo da offrire agli utenti una visione unificata.
La data integration si riferisce alle fonti dati da integrare, alla tipologia dei dati e agli approcci architetturali.
Il processo di data integration spazia dalla raccolta al data cleaning, dalla mappatura dei dati alla trasformazione, fino a renderne l’uso più fruibile – in una visione integrata – a coloro che vi accedono.
Tipologie di dati
Le tipologie di dati a disposizione delle organizzazioni rientrano in cinque categorie:
- Dati machine to machine (M2M): dati prodotti dall’interazione tra device elettronici (come sensori, RFID, connessioni Wifi);
- People to machine: i dati che scaturiscono dall’interazione tra persone e device, per esempio nel corso delle transazioni eCommerce;
- People to people: dati che provengono dall’interazione tra persone (generati su social media dalle attività degli iscritti, sui forum e blog);
- Public admin data: dati che si trovano in database pubblici (Open data ovvero dati gratuitamente disponibili a tutti per essere analizzati e rilavorati secondo il proprio interesse, senza limiti di copyright, brevetti o di altri meccanismi di controllo);
- Enterprise data: si recuperano all’interno dei data warehouse aziendali (i dati degli ERP o i dati dei CRM aziendali
Esempi di sorgenti:
- dati del traffico Web;
- ERP o CRM aziendali;
- software di marketing da personalizzare;
- app dedicate ai clienti;
- sistemi di supporto alle vendite, alla clientela, dai partner;
- dispositivi IoT per la manutenzione predittiva;
- device indossabili (wearable tech) per personalizzare piani sanitari;
- sensori per mappe stradali per veicoli self-driving car.
Approcci: data lake e data warehouse
Un tempo era consuetudine creare dei silos di dati, ma l’approccio tradizionale all’immagazzinamento dei dati separati per ogni funzione aziendale, è ormai superato dall’avvento dei big data.
A questa configurazione architetturale (in cui lo storage dei dati è organizzato secondo repository separati per dipartimento aziendale, gli ambienti risultano isolati tra loro, senza comunicazione e senza integrazione) sono contrapposte altri approcci come data warehouse e data lake.
Nel data warehouse l’archivio informatico che raccoglie i dati dai sistemi operazionali interni all’azienda li integra con i dati provenienti dalle sorgenti esterne.
I dati poi devono essere strutturati ovvero richiedono rappresentazione da parte di relazioni descrivibili con tabelle e schemi rigidi.
I data lake costituiscono un ambiente di archiviazione dei dati nel loro formato nativo, fin quando non bisogna conferire loro una struttura. Questa modalità di gestione permette un’integrazione di alte quantità di dati di ogni formato e derivanti da qualsiasi sorgente.
Il modello integrato consente a un’organizzazione di disporre sia di un data lake, sia di un data warehouse che collaborano in modalità integrata per rispondere in sinergia ai bisogni diversi di storage, gestione e analisi di ogni tipologia di dati.
Processo ETL
L’integrazione dati, inoltre, permette di prelevare le informazioni dal sistema sorgente per consegnarle nel deposito di un data warehouse, attraverso il processo ETL (Extract /Transform /Load ovvero estrazione /trasformazione /caricamento). Esso consente di fornire coerenza a più sorgenti di dati, in modo da trasformarle in informazioni che favoriscano l’analisi dei dati e la business intelligence.
Gli sviluppatori devono unificare tutte le molteplici sorgenti al fine di analizzare i dati o anche solo offrire una visione unificata
Senza data integration, infine, diventa complesso anche compilare un report. Bisogna accedere a più account su differenti siti, accedere a dati dentro app native, copiarli, procedere alla riformattazione e data cleaning, per poi passare, per esempio, alla big data analytics.
Cosa significa integrazione dei dati
Le aziende adottano data integration per essere in grado di analizzare e sfruttare le informazioni in maniera più efficace, soprattutto in ambito cloud e big gata.
La data integration è infatti cruciale per l’azienda innovativa che vuole e deve migliorare i processi decisionali e incrementare la competitività.
Pur non mancando una strategia universale di integrazione di dati, tutte le soluzioni di integrazione presentano un denominatore comune, che può essere un master server, una rete di sorgenti di dati e client che accedono ai dati dal master server.
In un processo di data integration, infatti, il client invia una richiesta di dati al master server che assimila dunque i dati necessari da sorgenti interne ed esterne. L’estrazione di dati dalle sorgenti, li porta a combinare in forma logica, unificata e utilizzabile, per inviarli al client.
Le iniziative di data integration – nelle grandi aziende che generano flussi di big data -, come abbiamo visto, permettono di creare data lake e data warehouse. I data warehouse integrano più sorgenti di dati in un database relazionale, per consentire agli utenti di immettere query, elaborare report, produrre analisi e trovare informazioni in formato omogeneo.
L’integrazione dei dati consente al data warehouse di rendere accessibili informazioni riepilogative di livello elevato, in un formato in cui l’allineamento combaci perfettamente.
A cosa serve la data integration
Pianificare l’unificazione dei dati serve a:
- migliorare la collaboration e l’integrazione in azienda, aiutando i dipendenti a lavorare su progetti condivisi e singoli;
- evitare di perdite di tempo: infatti l’automazione azzera il bisogno di acquisizione manuale dei dati ed elimina la necessità di ripartire da zero per ogni report o sviluppo di un’applicazione;
- tagliare drasticamente gli errori e successive elaborazioni: infatti una data integration che sincronizzare le informazioni, non deve rielaborare periodicamente i report per modificarli (invece, gli update automatici permettono di svolgere report in real-time);
- migliorare la qualità e dunque l’accuratezza dei dati;
- semplificare i processi di analisi.
Dati di mercato
Secondo l’Osservatorio Big Data del Politecnico di Milano, nel 2021 il 78% delle grandi aziende ha integrato i dati che arrivano da varie funzioni aziendali o dall’esterno.
Tuttavia, soltanto il 18% delle organizzazioni appare:
- proattiva, andando oltre le finalità di sicurezza dei dati ed integrità;
- in ambito data integration vanta tecnologie e competenze digitali in azienda.
Ciò significa che meno di un quinto delle aziende è in grado di gestire e governare i dati per rendere accessibile e valorizzare il proprio patrimonio informativo.
Inoltre, il 55% delle grandi aziende non sembra gestire i dati con maturità. Invece le restanti stanno implementando nuove tecnologie o cercano di individuare professionisti in questo campo da inserire in azienda.
Teoria dell’integrazione dei dati
La teoria dell’integrazione dei dati fa parte della teoria delle basi di dati. Utilizza la logica del primo ordine per formalizzare i concetti di un problema.
Serve a valutare la fattibilità e la difficoltà di integrazione. Sono teorie astratte, ma abbastanza generali per adeguarsi a tutti i sistemi di integrazione, inclusi quelli che:
- comprendono un sistema relazionale nidificato;
- basi di dati XML;
- trattano i database come programmi.
Le tecnologie a livello di implementazione, come JDBC, offrono connessioni ai DBMS di Oracle o DB2.
Comuni tool per data integration sono:
- Analytics Canvas;
- Alteryx;
- piattaforma Ultrawrap di Capsenta;
- Cloud Elements API Integration;
- DataWatch;
- piattaforma di Denodo;
- DataWerks;
- elastic.io Integration Platform;
- HiperFabric;
- Microsoft PowerQuery;
- Informatica Platform;
- Lavastorm;
- Oracle Data Integration Services;
- ParseKit;
- Paxata;
- Red Hat JBoss Data Virtualization;
- RapidMinder Studio;
- Azure Data Factory;
- SQL Server Integration Services;
- WinPure;
- TMMData.