Da circa un decennio, il Data Lake sta emergendo come alternativa ai repository tradizionali per rispondere alla necessità di archiviazione dei big data. Ma di cosa si tratta esattamente? E quali vantaggi può portare all’azienda? Di seguito, vengono esplorate le caratteristiche fondamentali del nuovo modello, evidenziando le opportunità per il business e fornendo alcuni esempi applicativi.
Che cos’è un Data Lake?
Nei moderni ecosistemi It, i dati continuano a crescere in volumi, varietà e velocità, così come aumentano i punti di origine e consumo delle informazioni. Le esigenze analitiche delle imprese richiedono un’infrastruttura di data management efficiente e flessibile, adatta a supportare ambienti sempre più distribuiti.
In questo scenario complesso, trova spazio il Data Lake, ovvero un repository che permette di archiviare enormi quantità di dati nel formato nativo, indipendentemente dalla tipologia e dalla provenienza.
A coniare il termine “Data Lake” nel 2010 è stato James Dixon, fondatore e chief technology officer della softwarehouse californiana Pentaho. Dietro la metafora, si nasconde un concetto rivoluzionario: il repository è come un enorme bacino, alimentato da moltissimi canali, da cui vengono prelevati campioni d’acqua per le analisi più disparate.
La maggioranza dei sistemi tradizionali memorizza tipologie di dati specifiche per scopi predefiniti. Il Data Lake, invece, archivia petabyte di informazioni grezze, lasciando agli utenti la più completa libertà d’uso.
Qual è la differenza tra Data Lake e Data Warehouse?
Come sottolinea Gartner, capire la differenza tra le diverse architetture di database è fondamentale per costruire una soluzione di information governance in linea con le esigenze di business.
Il primo passo è sicuramente distinguere tra Data Warehouse e Data Lake. Entrambi forniscono un punto integrato di raccolta per dati multi-source, con l’obiettivo di alimentare gli applicativi e supportare i processi analitici dell’azienda. Tuttavia, nonostante le finalità comuni, presentano alcune peculiarità distintive.
Dati grezzi vs elaborati
Come anticipato, la principale differenza tra Data Lake e Data Warehouse consiste nel trattamento delle informazioni al momento dell’acquisizione. Nel primo caso, i dati raccolti vengono archiviati nella forma nativa. Nel secondo caso, invece, i dati vengono ottimizzati prima di essere salvati, secondo le logiche Etl (Extract, Transform & Load).
Big data vs dati transazionali
Il Data Lake supporta diverse tipologie di informazioni, anche di tipo non tradizionale come le attività generate dai social media oppure gli indicatori provenienti dai dispositivi IoT. Il Data Warehouse invece colleziona sostanzialmente i dati provenienti dai sistemi transazionali e non è predisposto alla gestione dei Big Data.
Uso non determinato vs predefinito
I Data Lake collezionano le informazioni senza una finalità d’utilizzo predeterminata e possono così supportare un’ampia gamma di use case analitici generici. I Data Warehouse, invece, sono stati progettati per supportare necessità analitiche specifiche e predefinite, quindi permettono un’archiviazione dei dati selettiva, ottimizzando il consumo di memoria.
Schema on-read vs on-write
Il Data Lake segue uno schema on-read. I dati vengono salvati in formato nativo. Una volta coinvolti nel processo analitico, sono trasformati e visualizzati in forma elaborata. Nel Data Warehouse, invece, i dati vengono archiviati secondo uno schema on-write: si definisce a priori la struttura del database, quindi al momento dell’acquisizione, i dati vengono scritti all’interno della struttura e, quando richiamati dalle applicazioni, sono restituiti nel formato predefinito.
Flessibilità vs Solidità
Il Data Lake presenta un’architettura flessibile, che permette un accesso semplificato e garantisce modifiche rapide. Il Data Warehouse invece è più solido e strutturato, per cui consente di decifrare più rapidamente le informazioni ma complica la possibilità di future manipolazioni.
Il data scientist come usa il Data Lake?
La tipologia di utenti può essere considerata un ulteriore fattore differenziale tra le due tipologie di repository. La complessità nel gestire dati grezzi e non strutturati implica che soltanto figure specializzate come i data scientist possano attingere dai Data Lake. I Data Warehouse, invece, proprio perché progettati per un preciso scopo analitico, si indirizzano ai professionisti aziendali, che possono quindi processare in autonomia e ottenere rapidamente le informazione utili alle proprie attività.
Utilizzando il Data Lake, i Data Scientist possono accedere da un unico punto a una pluralità di informazioni eterogenee, dove applicare tecniche di machine learning, data discovery e analisi predittiva. Il grande beneficio del Data Lake infatti è la possibilità di sfruttare le più moderne tecnologie di Advanced Analytics, che permettono di generare insights previsionali, basati su informazioni aggiornate in tempo reale.
Il data warehouse invece si adatta ad applicazioni di Business Intelligence, data visualization e report in batch, utili agli utenti di business per le analisi dello storico e dell’as-is.
Architettura di un Data Lake
Chiariti gli scopi e i destinatari del Data Lake, rimane da capire come si compone dal punto di vista tecnologico.
Il Data Lake, che può essere implementato on-premise o in cloud, ha un’architettura piatta (i dati non sono organizzati gerarchicamente) e offre una scalabilità massiva. Nonostante la sua flessibilità strutturale, la capacità di definire una solida governance sui dati e sui processi di archiviazione si rivela indispensabile.
Senza controllo, infatti, il rischio è di costruire una “palude” (Data Swamp) dove le informazioni salvate diventano inaccessibili. È quindi fondamentale, al momento dell’archiviazione, contrassegnare i dati con un identificativo e un corredo di metadati. Essi permetteranno alle applicazioni di richiamare e leggere le informazioni secondo necessità.
Ma come si costruisce un Data Lake? Semplificando, bisogna considerare quattro categorie di componenti:
- sistemi di acquisizione e archiviazione, che permettono di salvare e richiamare dati strutturati, semi-strutturati e destrutturati nel formato nativo e secondo regole basate sui ruoli;
- soluzioni di estrazione e preparazione dei dati grezzi, perché vengano processati e resi disponibili alle applicazioni analitiche, attraverso processi automatizzati e periodici;
- analytics che consentono di creare modelli per l’estrazione automatizzata, in tempo reale o su base periodica, delle informazioni a valore partendo dalla base dati;
- layer di integrazione che permettono di interfacciare il Data Lake con applicativi esterni così da ottenere i dati nel formato utile a seconda della finalità specifica.
Quali sono i vantaggi di un Data Lake?
In virtù dell’architettura estremamente flessibile, il Data Lake offre una serie di vantaggi, che spaziano dalla convenienza economica alla migliore accessibilità ai dati.
Riduzione dei costi di archiviazione e consolidamento
Oggi le esigenze analitiche delle aziende sono in continua evoluzione. I tradizionali sistemi di data warahouse sono troppo costosi e complessi da aggiornare in caso si rendano necessarie modifiche strutturali o storage aggiuntivo. Grazie alla capacità di salvare i dati su file system distribuiti, il Data Lake offre uno spazio potenzialmente infinito per l’archiviazione e il consolidamento dei dati.
Migliore accessibilità ai dati
Il Data Lake offre l’accesso centralizzato e integrato a una gamma illimitata di tipologie di dati, indipendentemente dalla loro fonte. I dati collezionati sono disponibili da un unico punto a chiunque in azienda abbia l’autorizzazione.
Time-to-market ridotto
I progetti di ampliamento e consolidamento dei database tradizionali sono spesso lunghi e complessi. Il rischio è arrivare al completamento quando ormai le necessità analitiche dell’azienda sono mutate. Il Data Lake invece, grazie alle sue caratteristiche di scalabilità, garantisce l’espansione immediata del sistema e la massima disponibilità dei dati.
Esempi di Data Lake
Grazie alla serie di benefici e opportunità, I Data Lake oggi trovano applicazione in diversi settori e casi d’uso.
Sfruttare i dati non strutturati della Sanità
In ambito medico, la maggioranza delle informazioni è rappresentata dai dati non strutturati, come ad esempio le cartelle cliniche o le immagini dei referti radiologici. Grazie ai Data Lake è finalmente possibile integrare l’immenso patrimonio informativo della Sanità, correlando dati che altrimenti rimarrebbero segregati all’interno di repository specializzati e silos applicativi. Da qui, utilizzando strumenti di Advanced Analytics, Machine Learning e Intelligenza Artificiale, diventa possibile ricavare gli insights per migliorare prevenzione, diagnostica, terapie ma anche la distribuzione delle risorse.
Aumentare la fidelizzazione nel settore Travel
La vera forza del Data Lake è la capacità di spostare il focus dei processi analitici in funzione predittiva, grazie alla disponibilità dei dati in tempo reale e alla varietà di fonti da cui attingere.
Nel settore Viaggi diventa importante attuare le giuste strategie per indirizzare il customer journey con offerte personalizzate. Soluzioni elaborate in base alla raccolta e analisi di informazioni multi-source (piattaforme di e-ticketing, sistemi It delle strutture ricettive, portali per la prenotazione online, social media e così via). In particolare, il Data Lake abbinato a opportuni software analitici può consentire alle aziende del Travel di monitorare e prevedere le preferenze dei clienti. Permette di formulare proposte individuali, migliorare la user-experience, la qualità dei servizi e quindi la fidelizzazione, determinare in tempo reale il pricing delle offerte e analizzare le performance.
Più efficienza per le aziende dell’Oil & Gas
L’Oil & Gas è sempre stato un settore ricettivo alle nuove tecnologie ed ha sposato con entusiasmo le soluzioni disruptive, dal cloud computing all’Internet of Things. Con la trasformazione digitale in atto, le aziende del comparto oggi si trovano a gestire enormi volumi di dati provenienti dagli impianti di estrazione e distribuzione dell’energia elettrica, del petrolio e del gas. I Data Lake rappresentano una grande opportunità per sfruttare al meglio le applicazioni analitiche. E ricavare insights che permettono di ridurre le spese operative, migliorare la sicurezza, mantenere la compliance normativa, prevedere guasti agli stabilimenti e ridurre i fermi.