Data lake vs data warehouse: come e quando utilizzarli

Anche se entrambi archiviano big data, data lake e data warehouse non sono due opzioni equivalenti e ugualmente opportune in ogni situazione. Per compiere la scelta giusta, diventa essenziale acquisire la capacità di comprenderne le dell’una e dell’altra che, di volta in volta, posso risultare vincenti. L’aspetto dei costi risulta spesso quello che muove l’ago della bilancia, ma sono da considerare anche insights e data analytics ottenibili dai dati a disposizione.

Approfondendo le differenze tra data lake e data warehouses, emergono casi d’uso molto diversi, nonostante entrambi memorizzino dati. Proprio osservandoli e studiandoli, è possibile comprendere quale delle due opzioni può supportare al meglio la crescita o la scalabilità di un data center.

Sono ancora molte le organizzazioni che utilizzano in modo indifferenziato le due strutture, convinte di ottenere dai propri dati insights simili. È, però, sempre più evidente che non sono soluzioni di storage interscambiabili: la scelta comporta un impatto importante anche sul business. Va compiuta con grande attenzione. Si deve sempre partire dalle specificità di ogni singolo caso d’uso: in generale, i data lake rispondono meglio al bisogno di flessibilità, i data warehouse, invece, a esigenze più precise e note a priori.

Indice degli argomenti

Che cos’è un data lake?

Un data lake è uno storage che contiene dati sia strutturati che non strutturati, all’interno di un’architettura piatta che regala flessibilità nella gestione dei dati. In genere, archivia vari insiemi di big data e supporta diversi schemi, per poter gestire dati in più formati.

Per i data scientist, sono un’ottima piattaforma per preparare e analizzare i dati con cui alimentano applicazioni di big data analytics e data science. L’apprezzata flessibilità dei data lake concretamente consiste nella possibilità di archiviare dati provenienti da diverse fonti, abbattendo silos e radunando in un unico luogo data set provenienti da sistemi diversi. Un’opportunità che si rivela sempre più decisiva, soprattutto per realtà data-driven all’avanguardia.

A volte la traduzione letterale è fuorviante o poco significativa, stavolta no. L’espressione “lago di dati” rende bene l’idea di ciò con cui si ha a che fare. Un lago può contenere una grande quantità d’acqua proveniente da diversi punti e tipologie di fonti, proprio come un data lake costituisce un unico luogo per archiviare tanti dati grezzi di qualsiasi tipo (strutturati, semi strutturati e oltre). Il vantaggio consiste nell’avere tutti i propri dati in una posizione centralizzata, ma se serve estrarne di specifici, il modello “a lago” ha performance carenti per via della mancanza di uno schema rigido.

Che cos’è un data warehouse?

Un data warehouse è uno storage di dati che può contenere quelli generati ed estratti sia internamente, che esternamente. L’architettura stavolta ha più livelli: il primo estrae i dati dai sistemi operativi per integrarli, il successivo li organizza e il terzo allarga la platea di beneficiari, andando oltre ai data scientist.

Il punto di forza, in questo caso, è l’organizzazione dei dati. Quando un data warehouse archivia dati provenienti da più fonti, diversamente dal data lake, utilizza schemi predefiniti. Ciò facilita sia l’accesso ai dati che la loro consultazione, rendendo questa opzione più adatta a chi utilizza quelli strutturati. Senza sminuire i vantaggi del poter raggruppare qualsiasi dato grezzo in un data lake, va riconosciuto che i data warehouse garantiscono una migliore coerenza e qualità dei dati. In alcuni contesti, questo aspetto rappresenta un vantaggio decisivo, anche lato business: rende gli analytics più veloci e accurati, quindi più comodi da usare nelle applicazioni.

I punti deboli dei data warehouse riguardano i limiti sul numero e sui tipi di tool di analisi o di software di business analytics utilizzabili. Se un’organizzazione ha ben chiare le proprie esigenze, non subisce un grosso impatto da questo punto di vista, anzi, gode di una buona accelerazione nel processo di analisi. In caso contrario, la necessità di definire, a uno a uno, tutti gli schemi necessari, rallenta notevolmente il business, rendendo i data warehouse una scelta perdente.

Modelli di storage per data center: casi d’uso

Tra tutti i fattori da considerare nello scegliere tra data lake e data warehouse, quello decisivo sono le esigenze della specifica azienda. La tecnologia gioca sì un ruolo importante, ma impatta meno, nel complesso, eccezion fatta per grandi balzi in avanti, non certo all’ordine del giorno.

Quando la priorità è accedere a un bacino di dati più ampio possibile per effettuare real time analytics, si deve puntare sui data lake. Quando è più importante, invece, mantenere i dati altamente organizzati, per esempio, per soddisfare i requisiti normativi, sono i data warehouse a fornire la struttura adatta, anche per una buona visualizzazione dati.

Strutture di dati

data lake: adatti all’elaborazione dei dati memorizzati nel loro formato nativo e quando lo scopo dei data analytics non è determinato a priori.
data warehouse: adatti in presenza di dati strutturati, estratti da sistemi transazionali e schemi predefiniti.

Costi

data lake: ridotti, grazie a una gestione meno esigente e alle spese per lo storage utilizzato
data warehouse: elevati, per via di una gestione più impegnativa, spesso basata sull’utilizzo di maggiori risorse computazionali

Elaborazione dati

data lake: i dati vengono strutturati dopo l’estrazione dallo storage, seguendo il processo ELT
data warehouse: i dati vengono strutturati prima dell’estrazione, sempre secondo il processo ELT

Schemi

data lake: schema definito dopo la memorizzazione dei dati
data warehouse: schema viene definito prima della memorizzazione dei dati.

Utenti ideli

data lake: data scientist o data engineer, in grado di ottenere preziosi insights per il business, direttamente da dati in formato grezzo
data warehouse: top manager e workforce operativa, strettamente interessati solo ai KPI

Guida alla scelta dello storage. Ma bisogna scegliere?

Tirando le fila dell’overview presentata finora, si può schematizzare e dividere i casi d’uso più performanti per entrambe le opzioni.

I data lake sono ideali per

analisi real time
predictive analysis
analisi personalizzate
big data analytics
progetti di machine learning
analisi approfondite per risalire alla fonte di problemi di difficile interpretazione

I data warehouse sono ideali per

analisi ad hoc
reporting transazionale
visualizzazione delle dimensioni gerarchiche dei dati
presentazione di dati e insights a top management o utenti operativi privi di un back ground di data science specifico
data mining per individuare modelli nei dati

Continuando a contrapporre data lake e data warehouse, potrebbe essere emersa l’errata convinzione di dover per forza “schierarsi”. Non è così. Si possono implementare entrambi, per soddisfare diverse esigenze aziendali. Solitamente si parte dai data lake, più facili ed economici, per poi aggiungere nel tempo varie funzionalità di data warehouse. Un’ulteriore opzione da considerare è la realizzazione di un data lakehouse con un’architettura ibrida, per affrontare sia le sfide dei data lake che dei warehouse, in una sola mossa.