Guida

Data warehouse: cos’è e come migliora la gestione aziendale



Indirizzo copiato

Con l’aumentare dei database operativi, per effettuare analisi olistiche sui più importanti dati di business sono stati inventati i data warehouse. Che differenze esistono fra questi e i data lake, nati negli ultimi anni? Perché, almeno nel prossimo futuro, entrambi i tipi di repository continueranno a coesistere, pur integrandosi? Un tecnologia che non solo sopravvive, ma che si rinnova continuamente

Pubblicato il 3 apr 2023



Data warehouse e Big Data Analytics: come fare

Alla fine degli Ottanta, quando l’utilizzo di applicazioni informatiche ha iniziato a diffondersi pervasivamente all’interno delle aziende, ha fatto il suo debutto il Data warehouse (DW), un repository centralizzato di informazioni raccolte da varie funzioni aziendali, omogeneizzate, storicizzate e aggregate per l’analisi. Ancora oggi, molte imprese e altre organizzazioni con tanti processi e “lavoratori della conoscenza” (knowledge worker) mettono ai primi posti, fra le priorità IT, l’adozione di questa tecnologia.

Cosa si intende con Data warehouse

Nei primi decenni dalla nascita dei DW, a chi si affacciava su questa tematica, è sempre stato necessario sottolineare la differenza – e la complementarietà – fra i database (DB) operativi connessi alle applicazioni che supportano i singoli processi di business e Data warehouse. In entrambi i casi si tratta di repository (depositi) di dati, ma i database operativi hanno la funzione di memorizzare tutto ciò che riguarda attività puntuali di tipo transazionale (si parla infatti di Online Transaction Processing, OLTP), mentre i Data warehouse, come accennato, sono destinati ad archiviare dati sintetici, storicizzati e riconciliati per produrre “fotografie” successive di quanto è avvenuto nell’ambito del business.

In questo modo, i DW permettono di alimentare in modo più rapido e efficiente sistemi di reporting, business intelligence e analytics, che consentono, fra le altre cose, di avere insight innovative sui fattori che incidono sulle performance di business e creare così nuove KPI (Key Performance Indicator) e modelli organizzativi per raggiungere. Il tipo di elaborazioni consentite dai DW, quindi, prende il nome di Online Analytical Processing (OLAP), in cui si prendono in considerazione più dimensioni di un determinato fatto di business e si ottengono modelli per le analisi denominati “cubi”.

Differenze tra Data Lake e Data warehouse

A partire dagli anni Novanta, si è assistito a aumento esponenziale dei dati non strutturati e di quelli semi-strutturati, i quali non sono gestibili con i Data warehouse. Questi, infatti, nella stragrande maggioranza dei casi utilizzano database relazionali (basati su tabelle con righe e colonne) e il linguaggio di query SQL. Per centralizzare e gestire questi tipi di dati, che già esistevano prima di quell’epoca, ma in minore quantità, si è finalmente sviluppato il modello (già sperimentato agli inizi degli Ottanta), dei database orientati agli oggetti.

La crescente compresenza di DW e object database ha portato diversi vendor di soluzioni di data e storage management a lanciare il paradigma dei data lake, destinati ad essere repository universali per database operativi, Data warehouse, object database e altre fonti di dati. Almeno fino a tempi recenti, il modello data lake si è rivelato utile soprattutto da un punto di vista di unificazione infrastrutturale, ma meno da quello logico: anzi, molti osservatori avvertono del rischio che i data lake possano prolungare una visione dei dati a silos.

Migliorare la gestione dei dati con soluzioni Data warehouse

Per tornare al DW, va sottolineato come, a differenza dei data lake, questi hanno sempre avuto – e hanno tuttora – un’architettura basata su molte tabelle, disposte su diversi livelli, con precise gerarchie fra i dati. Il fine di questa strutturazione, e della preventiva riconciliazione e pulizia dei dati provenienti da DB eterogenei, è quello di garantire agli utenti più veloce accesso alle dimensioni del business attingendo a un’unica fonte di verità (single source of truth, SSOT) rispetto ai dati dell’azienda vista in modo olistico.

Alla base della creazione di questa verità e della scelta delle dimensioni utili per le analisi OLAP giocano un ruolo fondamentale i tool utilizzati per l’ETL (Extract, Transform, Load). Questi sono responsabili dell’estrazione dei dati dai DB operativi e da altre fonti (attraverso specifici connettori e API), della trasformazione dei dati (correzione, deduplica, standardizzazione, attribuzione di permessi di accesso per la tutela della confidenzialità dei dati stessi e altro) e del caricamento – o streaming – nel DW.

Altro capitolo fondamentale per il miglioramento della gestione dei dati nel Data warehouse è quello della creazione di “metadati”. Con questo termine si intendono “dati che spiegano altri dati” o “dati sui dati”. La loro esistenza favorisce la comprensione all’interno dell’azienda del significato di tutti i dati, e quindi la collaborazione interdisciplinare e i processi decisionali.

Inoltre, se prima dell’avvento dei DW per effettuare analisi si era costretti a richiedere lunghe stampate di dati analitici provenienti da database operativi diversi e poi raffrontare (attività che potevano richiedere giorni o settimane), con i Data warehouse le stesse analisi si possono effettuare in poche ore o minuti.

Ottimizzare l’infrastruttura dei dati con opzioni avanzate di Data warehouse

I Data warehouse basati su tecnologie di ultima generazione supportano la scalabilità del business anche grazie alla scalabilità delle architetture con cui possono essere costruiti. Le architetture DW si possono dividere in tre tipologie: a uno, due o tre livelli. In passato era difficile passare da un tipo di architettura a un’altra senza dover praticamente riprogettare tutto, acquistare nuovo hardware, software e scrivere molto codice.

Vediamo le tre tipologie. La prima, ancora oggi adatta a PMI e startup, ha un solo elemento centrale, costituito da un middleware che mette opportunamente in connessione diretta i database operativi e i tool di analisi. Il secondo, ha al centro due livelli: uno di alimentazione (a volte chiamato staging) costituito da strumenti ETL e l’altro dal Data warehouse vero e proprio, contenente il repository dei metadati e i dati di business riconciliati, storicizzati e pronti per le query degli utenti di BI.

Nella struttura a tre livelli, oltre l’ETL e un DW centrale di ampie dimensioni vi sono data mart. Si tratta di piccoli DW dedicati alle esigenze di analisi di specifiche aree funzionali, o anche team di progetto, che contengono in una piccola parte sottoinsiemi dei dati contenuti nel Data warehouse e, in massima parte, dati di interesse specifico per i loro utenti, che possono essere aggiunti anche direttamente da questi.

Molte attuali offerte di Data warehousing – da parte di vendor storici del settore o da nuovi fornitori emersi negli ultimi due decenni – includono le tecnologie e i servizi per creare DW, farli crescere, modificarli in maniera flessibile, ed eventualmente effettuare il roll-back da un tipo di architettura a un’altra. Sempre più spesso questi ambienti di sviluppo e implementazione vengono usufruiti in cloud, certamente nel caso che i fornitori siano cloud provider (come Amazon, Google o Microsoft Azure) ma anche in quello di vendor IT, storici quali Hitachi, Ibm, Microsoft, Oracle, Sap, Teradata e altri, o emergenti quali Databrick o SnowFlake.

I vantaggi competitivi delle soluzioni di Data warehouse

Se si devono individuare quali elementi di differenziazione competitiva esistono fra le diversi proposte di Data warehouse, al primo posto è possibile considerare tutto ciò che consente di evitare il lock-in degli utenti. Le architetture dovrebbero offrire la maggior apertura possibile verso le fonti di dati, che oggi sono sia database operativi sia applicazioni business offerte in modalità Software-as-a-Service sul Web. Quindi, massima attenzione alla quantità di connettori e di API (Application Programming Interface).

Un discorso analogo va effettuato nella direzione dei tool di Business Intelligence: Data warehouse e data mart devono essere accessibili da qualsiasi strumento analitico che sia già utilizzato in azienda o che questa prevede di acquisire sul libero mercato.

Altro tema importante è quello della portabilità da un cloud a un altro (nel caso di offerte di DW best-of-breed) o del supporto di integrazione multi-cloud, nel caso di proposte di cloud provider. Fondamentale è la disponibilità di strumenti di ETL che permettano di creare facilmente pipeline di dati – sia in formato nativo, sia trasformato – e di caricarli nel DW e/o nei data mart. Auspicabile, anche in questo caso, il non lock-in: i data engineer dovrebbero poter essere liberi di scegliere fra tool proprietari del DW provider e tool di terze parti e/o open source, con cui sono già abituati a lavorare.

Interessante anche la possibilità che questi tool per l’ETL pipeline siano di tipo no-code (per poter essere utilizzati anche da utenti non informatici) e permettano di implementare algoritmi di Machine Learning (ML) per automatizzare, ad esempio, l’analisi di big data memorizzati nei data lake e ricavare dati che possono essere caricati, previa apposita rimodellazione, nel DW.

Molto richiesta è l’offerta di servizi gestiti, per esempio nella gestione dell’infrastruttura, dello storage, dell’integrazione con altri tipi di repository (inclusi i data lake) e della importantissima sicurezza. Last but not least il rapporto prezzo-prestazioni.

Speciale Digital Awards e CIOsumm.it

Tutti
Update
Keynote
Round table
Video
Digital360Awards e CIOsumm.it, i momenti salienti
Approfondimenti
La sinergia tra CIO e CISO trasforma la cybersecurity in un obiettivo di business strategico
Approfondimenti 
Etica dell’innovazione tecnologica per i CIO: prima chiedersi perché. Poi definire cosa e come
Eventi
Digital360 Awards e CIOsumm.IT, ecco i progetti vincitori
Tavola rotonda
Evoluzione del CIO: da centro di costo a motore strategico del business
Tavola rotonda
Business Process Augmentation: dall’RPA alla GenAI… il dato e tratto
Approfondimenti
Sistemi digitali potenziati: l’intelligenza dei chatbot è nelle mani dei CIO
Tavola rotonda
Intelligenza collaborativa e AI: sfide e opportunità per i CIO nell’era dello Human to Machine (H2M) 
Approfondimenti
Open Source: collaborazione e innovazione nel caos apparente del software libero 
Metodologie
BANI: che cos’è e come l’AI può aiutare i CIO a gestire la felicità (e l’infelicità) dei talenti
Prospettive
AI in un mondo complesso. Tra ordine e disordine, le aziende iniziano a capire la giusta via
Approfondimenti
Intelligenza Umana vs Intelligenza Artificiale insieme. Non invece
Eventi
Digital360 Awards e CIOsumm.IT, al via l’evento conclusivo
Video
Digital360Awards e CIOsumm.it, i momenti salienti
Approfondimenti
La sinergia tra CIO e CISO trasforma la cybersecurity in un obiettivo di business strategico
Approfondimenti 
Etica dell’innovazione tecnologica per i CIO: prima chiedersi perché. Poi definire cosa e come
Eventi
Digital360 Awards e CIOsumm.IT, ecco i progetti vincitori
Tavola rotonda
Evoluzione del CIO: da centro di costo a motore strategico del business
Tavola rotonda
Business Process Augmentation: dall’RPA alla GenAI… il dato e tratto
Approfondimenti
Sistemi digitali potenziati: l’intelligenza dei chatbot è nelle mani dei CIO
Tavola rotonda
Intelligenza collaborativa e AI: sfide e opportunità per i CIO nell’era dello Human to Machine (H2M) 
Approfondimenti
Open Source: collaborazione e innovazione nel caos apparente del software libero 
Metodologie
BANI: che cos’è e come l’AI può aiutare i CIO a gestire la felicità (e l’infelicità) dei talenti
Prospettive
AI in un mondo complesso. Tra ordine e disordine, le aziende iniziano a capire la giusta via
Approfondimenti
Intelligenza Umana vs Intelligenza Artificiale insieme. Non invece
Eventi
Digital360 Awards e CIOsumm.IT, al via l’evento conclusivo

Articoli correlati

Articolo 1 di 4