Data warehouse: una corretta analisi dei dati aumenta la produttività, contribuendo a ottimizzare le risorse e i processi. Inoltre, i sistemi di Business Intelligence supportano le decisioni aziendali in modo più accurato e veloce grazie all’integrazione della storia passata con la capacità di analizzare dati in tempo reale. Quindi, analizzare i dati e disporre di quante più informazioni possibili sul proprio business e sul mercato di riferimento aiuta le aziende, dalle più piccole alle più grandi, a migliorare la propria strategia di marketing e a incrementare il fatturato minimizzando gli investimenti. I data warehouse sono capaci di contenere grandi volumi di dati strutturati, che saranno preziosi in fase di analisi sia storiche sia previsionali, a supporto della business intelligence.
Cosa si intende con data warehouse
Un data warehouse è un magazzino di dati spesso indicato con la sigla DWH che contiene una collezione di dati strutturati derivanti da diverse origini.
Attraverso la sua consultazione per mezzo di opportune query, un DWH è utile nei processi di decision making e per estrapolare insight sul business di riferimento.
Le origini dei dati che confluiscono in un data warehouse possono essere di diverso tipo e provenienti da diversi settori dell’azienda, come il reparto vendite, ad esempio.
Solitamente i dati provengono da: database relazionali, sistemi transazionali e altre fonti interne o esterne al sistema informativo aziendale.
In un data warehouse possiamo trovare tre livelli di dati:
- dati attuali di dettaglio,
- dati storici di dettaglio
- dati aggregati.
Data warehouse, data mart e sistemi gestionali a confronto
Un data warehouse consente di memorizzare nel tempo un enorme quantità di dati, come già abbiamo evidenziato nel paragrafo precedente, e permette la consultazione dei dati al suo interno in modalità di sola lettura.
Infatti, i dati memorizzati al suo interno non sono più modificabili dopo essere stati caricati.
Un data mart, invece, è specializzato su uno specifico argomento e può essere definito come un sottoinsieme del data warehouse generale. Infatti, contiene una minore quantità di dati disponibili per la consultazione, incentrati su una specifica attività aziendale, con disponibilità dei dati quasi immediata.
Grazie alle sue dimensioni ridotte permette, infatti, di ottenere i dati necessari da fornire ad analisti e decision maker in tempi brevi, accorciando le attese di giorni o addirittura di tempi più lunghi.
Inoltre, l’utilizzo di un data mart permette di garantire un maggior livello di sicurezza e sul controllo degli accessi poiché si consente l’autorizzazione all’utilizzo di una minore quantità di dati.
Infine, un sistema gestionale è un software che raccoglie e gestisce sempre dei dati, ma ha il compito principale di automatizzare le operazioni di routine aziendali.
Architettura e funzionamento del DWH
Un data warehouse ha una struttura di base ben precisa basata su una architettura a più livelli. Essa può differire a seconda delle specifiche implementate, ma in generale tutti hanno:
- livello di acquisizione dei dati, nel quale vengono acquisiti, validati i dati dalle diverse origini ed elaborati in modo da essere utili in fase di analitica e consultazione futura
- livello di archiviazione dei dati, nel quale avviene la vera e propria memorizzazione permanente dei dati sottoforma di array multidimensionali nel data warehouse generale e nei data mart. L’archiviazione avviene per mezzo di un processo ETL (extract, transform, load) per il quali i dati sono prima estratti, poi ripuliti e poi caricati nel data warehouse per mezzo di un software di integrazione dei dati; oppure per mezzo di un processo ELT (Extract, Load, Transform) per il quale i dati vengono prima estratti, poi caricati e poi successivamente ripuliti all’interno del data warehouse. Solitamente i dati a cui si accede più frequentemente verranno memorizzati in una memoria più veloce di tipo SSD per diminuire i tempi di accesso.
- livello di presentazione dei dati, nel quale avviene la presentazione dei dati memorizzati all’utente finale che interagisce per mezzo di query con il data wharehouse. A questo livello, l’utente ha a disposizione degli strumenti per visualizzare in formati diversi le informazioni richieste, come ad esempio strumenti di reporting la creazione di report standard o strumenti di on-line analytical processing (OLAP), che offrono interfacce utente standard per formulare interrogazioni ad hoc sul set di dati memorizzato. Una delle funzioni più interessanti utilizzabile a questo livello è lo strumento di forecasting e simulazione, che permette all’utente di utilizzare i dati del DWH per simulare modelli di previsione.
Inoltre, in fase di progettazione di un data warehouse bisogna sempre tenere conto degli specifici requisiti aziendali e delle esigenze degli utenti finali che interagiranno con esso, senza tralasciare l’importanza del tipo di trasformazione richiesto sui dati, sulla loro frequenza di aggiornamento e delle funzionalità di backup, di ripristino e di protezione dei dati.
In questa fase interviene a supporto anche il data warehouse manager, quale esperto per la gestione del DWH e dei flussi di dati aziendali che confluiscono in esso.
Inoltre, questa figura professionale sarà anche responsabile di gestire il team di professionisti che interagiranno con il sistema, quali: analisti, data engineer, data scientist, decision maker e altri esperti aziendali e del settore IT dell’azienda.
Data warehouse o data lake, quale scegliere
A seconda della mole di dati raccolti e dell’utilizzo finale che ne verrà fatto, un’azienda sceglie di avvalersi di un data warehouse o di un data lake.
Il primo contiene dati strutturati già preparati per l’analisi e per la generazione di statistiche a partire da essa. Un data lake, invece, può contenere oltre a dati già strutturati, anche dati semi-strutturati e non strutturati, quindi nemmeno filtrati o elaborati.
Solitamente, in un data lake confluiscono anche i flussi di dati provenienti, ad esempio, da app mobili o dispositivi IoT, per i quali le informazioni necessarie vengono estrapolate direttamente in fase di richiesta. Quindi, in quest’ultimo caso, i dati vengono semplicemente archiviati senza essere elaborati.
È bene precisare che se il fine aziendale è di fare un’analisi di bigdata o di avvalersi di applicazioni del machine learning si può scegliere sia l’uno che l’altro sistema, dato che in questi casi non è necessario disporre per forza di dati già strutturati, ma bisogna averne una considerevole quantità.
Perché utilizzare un data warehouse: i vantaggi
L’utilizzo di un data warehouse è consigliato quando una azienda ha la necessità di archiviare una grande mole di dati e di trarne nel presente e nel futuro delle informazioni di valore per il proprio business. Infatti, un DWH permette di:
- estrarre dati da più origini consolidandoli in un’unica posizione in modo da renderli facilmente e velocemente consultabili per le analisi;
- eseguire analisi personalizzate per tenere sempre sotto controllo i punti di forza e debolezza dell’azienda e sulla base di esse di prendere decisioni in tempo reale, anche senza l’intervento di un professionista del settore dell’IT;
- creare report ad hoc, senza influire sulle prestazioni del sistema aziendale, dato che tutti i dati storici per la consultazione sono archiviati separatamente;
- supportare l’integrazione nel processo aziendale di strumenti di machine learning e intelligenza artificiale con il fine di generare modelli predittivi in base ai big data archiviati.
Questi sono solo alcuni dei vantaggi di un data warehouse, che possono aumentare se si opta per la gestione in cloud, sfruttando così tutta la potenza messa a disposizione dal cloud computing.
Data warehouse in cloud, cos’è e come funziona
Un data warehouse in cloud offre le stesse funzionalità di un DWH ma con prestazioni più elevate. Infatti, in questo scenario l’azienda non deve più preoccuparsi di creare e gestire fisicamente l’infrastruttura hardware e software del Data warehouse, ma beneficia direttamente anche dei vantaggi offerti dal cloud computing, quali: flessibilità, agilità, scalabilità, costi ridotti e sicurezza.
Questa soluzione rappresenta un’ottima scelta, soprattutto in termini di scalabilità nel tempo. Dal momento che i data warehouse on-premise risultano meno flessibili e complica la determinazione delle giuste dimensioni per gestire volumi crescenti di dati.
Un moderno esempio è il data warehouse autonomo (autonomous data warehouse) che semplifica tutte le operazioni di implementazione e gestione dei dati grazie all’intelligenza artificiale il machine learning e non richiede l’intervento umano, cioè di un operatore fisico, per la configurazione dell’hardware e l’installazione del software in quanto è un servizio in cloud.
In conclusione, in commercio si possono trovare diverse soluzioni software di Business Intelligence con data warehousing integrato sia a pagamento, offerti da software house conosciute a livello internazionale, sia open source, senza tralasciare le soluzioni di data warehousing in cloud.
La scelta come sempre dipende:
- dalle infrastrutture tecnologiche a disposizione dall’azienda,
- dalle prestazioni che si vogliono ottenere,
- dall’uso finale che si vuole fare dei dati,
- dal livello di personalizzazione con strumenti di data visualization più o meno avanzati
- e soprattutto dal budget a disposizione.
Inizialmente, le soluzioni di data warehousing erano prerogativa delle grandi aziende con alti fatturati. Tuttavia, grazie alla crescente disponibilità di dati e alla necessità di rispondere rapidamente ad un mercato in continua evoluzione, persino le piccole e medie imprese stanno valutando opzioni per analisi continue e in tempo reale. In questo modo, proprio come le aziende più grandi, hanno la possibilità di prendere decisioni consapevoli e strategiche.