Le più comuni preoccupazioni legate al mondo degli analytic oggi si stanno amplificando con l’arrivo massivo di nuovi set di dati, la crescita sempre maggiore degli user che accedono, usufruiscono, creano dati, e il crescere della variabilità delle fonti e della tipologia di dati. Pensare che le criticità legate ai Big data siano risolvibili semplicemente adottando un sistema di analytic che poggia su un data warehouse performante e scalabile è rischioso. Questo approccio, già sperimentato da molte aziende, è risultato inefficace ed è ormai superato. A dirlo è Irfan Khan (nella foto), SVP & Chief Technology Officer di Sybase – an SAP Company, autore di una guida intitolata ‘Intelligence for everyone’ all’interno della quale, attraverso casi e prove concrete, spiega come e perché le aziende dovrebbero estendere gli analytic (intesi sia come strumenti ma anche come approccio metodologico) a tutte le operation. Khan, infatti, oltre a discutere del valore degli analytic, commentando anche qualche recente studio, focalizza l’attenzione sui casi studio attraverso i quali illustra i vantaggi (anche in termini di Roi) ottenuti dalle aziende che hanno approcciato la ‘nuova era della business analytic’, specialmente quelle che sono alle prese con transazioni interessate da una costante crescita del volume di dati, che stanno espandendo la popolazione di utenti, utilizzano diversi tipi di dati, rivedendo i proprio workload e incrementando le query ad hoc.
Big data: centrale è la data quality
L’arrivo dei Big data sta generando ansie inutili. I problemi non sono da ricondurre né alla crescita dei dati, né alla loro forma, né alla crescita degli user e tantomeno alle infrastrutture It. È questo che si legge nel primo capitolo della guida: la tecnologia di supporto alle ‘ondate evolutive’ c’è sempre stata e, ancora una volta, è pronta alla sfida. L’analisi dei dati ha sempre rappresentato una criticità (sia sul fronte It sia su piano del business) e gli ultimi decenni sono stati caratterizzati proprio da crescita esponenziale e diversificazione dei dati. Non è un problema nuovo e considerarlo tale è una ‘grande bugia’, anche se va ribadito che da moltissimi studi si rivela una certa ‘emergenza’ in merito al gap che si sta determinando tra informazioni digitali create e disponibilità di storage per immagazzinarle (secondo l’Idc Digital Universe Study tra il 2010 e 2020 questo gap sarà destinato a crescere: ci saranno quasi 40 milioni di Petabyte di dati creati contro una capacità di storage di 15 milioni). Una criticità, questa, inerente le infrastrutture It che sta già trovando una risposta tecnologica, anche attraverso il cloud. Il vero problema risiede, ancora una volta, nella capacità di analisi di questi dati. Problema che, secondo Khan, non è nuovo. Tornano alla ‘ribalta’ infatti i concetti di data quality. Così come richiesto per gli analytic data warehouse, anche oggi, per l’analisi dei Big data, è necessario concentrarsi su quattro aspetti fondamentali che impattano sulla data quality:
- Latenza: considerate le tre dimensioni della latenza dei dati nelle vostre organizzazioni – suggerisce Khan – cioè il timing dei dati, la durata dell’evento, il tempo della decisione.
- Correlazione: lavorare con i business user per determinare il contesto all’interno del quale devono essere utilizzati i dati e definirne le connessioni/relazioni lungo i set di dati utilizzati (per evitare inutili crescite o duplicazioni di dati, ecc.)
- Self-service: definire a priori i privilegi degli utenti in modo che possano accedere ai dati utili per le loro analisi senza l’intervento dell’It o di altri risorse.
- Chief Data Officer: identificare un responsabile in grado di assicurare la qualità dei dati ma soprattutto di garantire la governance all’interno dell’organizzazione.
Un concetto di data quality, quello espresso da Khan, che va ben oltre l’aspetto tecnologico ma asserisce all’efficacia del dato. Efficacia sul piano finanziario, sulla produttività (per la creazione di prodotti e servizi innovativi), su vendite e customer care, sotto il profilo delle operation aziendali, solo per citare alcuni degli impatti che una non-qualità può avere in termini di business.
Quello di cui hanno bisogno oggi le aziende per innovare e competere, si legge nella guida di Sybase, non sono dunque ‘più dati’ ma dati migliori: la sfida reale è che oggi questi dati ‘migliori’ vanno ricercati tra fonti variabili, diverse, in crescita, ecc., e vanno ‘scremati’, non raccolti e basta. Altrimenti gli analytic rischiano di perdere di efficacia.
Intelligenza per tutti
Se da un lato i dati devono essere migliori e più efficaci, dall’altro è fondamentale che gli strumenti di analisi siano fruibili lungo tutta l’azienda e non riservati, per esempio, solo al top management. Khan vede la cosiddetta ‘Intelligence for everyone’ non come una chimera ma come una approccio metodologico per riuscire a garantire a tutta la popolazione di user in crescita tool di business intelligence e business analytic in grado di supportarli nel proprio lavoro.
E qui entrano dunque in gioco i requirement e i desiderata. Le tecnologie di database sono già in grado di supportare una vasta gamma di applicazioni; l’Enterprise data warehouse (Edw), per esempio, risulta essere un eccellente strumento per un numero limitato di utenti che necessita di strumenti di analisi e reporting tradizionali, scrive Khan. Ma se le necessità e gli obiettivi dell’azienda sono altri, per esempio sfruttare sistemi di analisi più evoluti e renderli disponibili ad un ampio numero di utenti che utilizzano una varietà maggiore di set di dati e richiedono query ad hoc che impattano sulle performance dei sistemi, allora un Edw non è sufficiente e il limite tecnologico non può essere superato semplicemente aggiungendo un nuovo modulo al data warehouse o spendendo tempo e risorse (economiche e umane) per fare il tuning dei sistemi. Queste sono strategie ormai superate e risultate nel corso degli ultimi anni del tutto inefficaci rispetto alle nuove esigenze di business, sempre più focalizzate sulla ricerca di competitività.
E per rendere ancora meglio l’idea, Khan si pone alcune domande: perché gli Edw non consentono di evolvere a sistemi di enterprise-wide analytics? Qual era lo scopo originale che ha portato a scegliere l’Edw? Perché, nonostante gli ingenti investimenti in Edw e i miliardi di dollari spesi, Gartner sostiene che “nel 2012, più del 35% delle top 5000 global company continuerà regolarmente a sbagliare le decisioni di business rispetto ai significativi cambiamenti che avvengono nel loro mercato di riferimento” (fonte: Gartner Reveals Five Business Intelligence Predictions for 2009 and Beyond)?
Le risposte ci riportano alla tecnologia – osserva Khan –: le architetture software di data warehouse tradizionali non sono state disegnate per le esigenze di oggi. Oggi servono strumenti più evoluti (i columnar data base, le tecnologie in-memory, ecc.) che rappresentano le fondamenta su cui costruire le architetture analitiche per garantire la già citata ‘intelligence for everyone’, disponibile in modo nuovo anche per gli utenti finali (attraverso nuovi tool e dispositivi quali portali web, applicazioni mobili, ecc.).
Costruire un’enterprise analytic architecture
In altre parole, affinché la business analytic sia realmente pervasiva lungo tutta l’azienda è necessario predisporre una vera e propria architettura analitica che tenga conto di tutti gli strati tecnologici necessari non solo del software analitico in sé. I database relazionali, si legge nella guida, non sono nati per fare business analytics. A dire il vero, nemmeno i database a colonne sono nati, nello specifico, per la business analytics ma si sono rivelati molto performanti per la loro capacità di compressione, così come raccontato da alcune aziende citate nella guida: la sussidiaria tedesca di Citigroup parla di un 43% di compressione dei propri dati relativi al trading con una capacità di spazio superiore del 4% per ogni singolo deal (transazione) il cui beneficio più immediato è la capacità di analisi più veloce. comScore effettua analisi sul business online (proprio e per conto dei propri clienti) grazie ad una infrastruttura data base a colonne che gli garantisce la compressione di dati massivi fino al 40%.
Ma la compressione dei dati rappresenta solo uno dei tasselli di quella che Khan chiama ‘enterprise analytic architecture’; da sola, rappresenta solo una opportunità di storage, non di analisi. Affinché si possa parlare di intelligence è necessario che tutti i sistemi siano in grado di sfruttare i dati compressi attraverso un massively parallel processing (Mpp) system e ci deve essere una stretta integrazione tra i due sistemi. Che significa che il database a colonne deve essere già predisposto per questa connessione; non è sufficiente che si inseriscano dei metalayer tra i due sistemi perché questo ha dei limiti: incompleta visibilità sulle performance; limitata crescita rispetto alla popolazione di utenti; limitata scalabilità con possibilità di fare solo delle query ad hoc non sfruttando invece a pieno le potenzialità di analisi ormai imprescindibili nell’era dei Big data.
Di fatto, ciò su cui punta l’attenzione Khan è l’importanza del data base a colonne quale pilastro fondante di una architettura analitica di classe enterprise. E non potrebbe essere diversamente dato il chiaro posizionamento di Sybase in questa direzione. Ma ciò che di utile c’è in questa guida sono le best practice che l’azienda suggerisce affinché si segua un approccio corretto che porti, in concreto, dei risultati tangibili.
Parliamo di risultati non banali anche in termini economici, dichiarati pubblicamente dai diversi interessati: American Airlines ha stimato un risparmio di 1 milione di dollari all’anno nell’ambito della detenzione delle frodi; sempre in quest’ambito, Aok Hessen (azienda di assicurazioni) parla di risparmi nell’ordine dei 3,2 milioni di dollari grazie all’analisi più efficace dei rischi di frode; Cell (compagnia di telecomunicazioni) è riuscita a risparmiare 20 milioni di dollari solo per un singolo progetto; Hmv Japan (catena retail nel mondo dell’entertainment) è riuscita a far crescere le vendite online di 15 volte rispetto ai sistemi in uso precedentemente.