Se c’è un qualcosa il cui valore non ha risentito dei problemi che la crisi economica e i mutamenti dei mercati pongono alle organizzazioni, questa è l’informazione. Al contrario, è proprio nei tempi dove occorre prendere rapidamente decisioni tanto difficili quanto vitali per indirizzare lo sviluppo o anche il semplice mantenimento del business che il patrimonio informativo diventa l’asset il cui uso può determinare le sorti di un’impresa. Per questo cresce la pressione sui responsabili dei Sistemi Informativi affinché realizzino soluzioni in grado di coniugare due esigenze in parte contrastanti: da un lato raccogliere e archiviare un volume di dati che cresce a ritmo esponenziale; dall’altro organizzare tali dati in modo da potervi efficacemente agganciare applicazioni analitiche tanto potenti quanto flessibili.
La base sulla quale costruire una tale soluzione, e che in gran parte delle imprese, specie se di grandi dimensioni, è stata già realizzata, è il cosiddetto Enterprise Data Warehouse (Edw).
L’Edw è l’infrastruttura informativa delegata appunto alla raccolta dei dati dalle molte fonti di cui l’intera organizzazione può disporre e alla loro organizzazione e gestione ai fini di trarne, tramite opportune applicazioni analitiche, informazioni e conoscenza. Dal punto di vista dei SI il problema è quindi come scalare tale infrastruttura e ottimizzarne le prestazioni per ottenere, come si è detto, il miglior compromesso tra potenza e flessibilità.
Le soluzioni e le pratiche che indirizzano tale obiettivo sono diverse, e considerano sia interventi sull’architettura dei dati (scegliendo quelle più adatte a soddisfare i bisogni informativi della singola impresa), sia sul loro trattamento tramite tecnologie hardware e software (che comprendono elaborazione parallela, appliance dedicate, ottimizzazione dei livelli di storage e bilanciamento dei carichi di lavoro). Questi temi verranno trattati in modo dettagliato nell’ambito dell’Osservatorio Enterprise Data Warehouse nel corso dei prossimi aggiornamenti, con considerazioni relative sia a particolari necessità richieste dal business (tipo analisi in tempo reale, reporting personalizzati e flessibili e quant’altro), sia alle opportunità, sempre per il business, che alcune tecnologie sono in grado di offrire.
Le criticità del processo di ottimizzazione
Vogliamo però prima iniziare con un breve esame dei possibili punti critici di un processo di ottimizzazione delle prestazioni di un Edw, il cui peso relativo nell’ambito della singola situazione influenza la scelta della (o delle) soluzioni da adottare.
– Necessità di consolidare grandi volumi di dati. La grandezza delle basi dati che alimentano un Edw si è moltiplicata passando in una decina d’anni da poche centinaia di gigabyte a volumi medi dell’ordine dei terabyte, con la previsione di giungere entro il 2015, almeno nelle grandi imprese, a valori di 100 terabyte e più. Questa crescita è spinta dal consolidamento di data mart tradizionalmente separati e, specie nelle società commerciali, dalle analisi su contenuti non strutturati. In molti settori si assiste inoltre all’enorme volume di dati transazionali provenienti da nuove fonti e nuovi eventi, dai contatori elettronici luce e gas nelle utility alla rivoluzione digitale negli strumenti per la sanità. L’Edw deve quindi poter garantire capacità di data mining e query complesse consolidando tutti questi dati.
– Proliferazione di domini, ‘cubi’ e data mart. Bisogna fare in modo che gli Edw possano alimentare con i loro dati un numero elevato di dominii e data mart indipendenti, costruiti su diversi modelli dimensionali. Questi costituiscono infatti una soluzione efficace e flessibile per la rapida esecuzione di query in risposta a specifiche e mutevoli richieste del business.
– Crescita del numero di utenti e query concorrenti. L’Edw deve poter sostenere le richieste poste contemporaneamente da più utenti, dato che con la diffusione di soluzioni di business intelligence ‘self-service’, cioè gestibili direttamente dall’utente finale, il numero di sessioni concorrenti è destinato a crescere di più ordini di grandezza. Si passerà infatti da un numero ristretto di utenti definiti nominalmente a centinaia di utenti, molti dei quali ‘occasionali’.
– Avanzata delle analisi ‘real-time’. La latenza dei dati, cioè il tempo intercorrente tra il loro ingresso nell’Edw e la loro uscita verso le applicazioni analitiche e di BI, si riduce drasticamente. Dalle operazioni batch svolte di notte si sta andando verso aggiornamenti quasi in tempo reale e i responsabili It devono fronteggiare richieste di utenti che si aspettano di poter elaborare dati aggiornati al minuto. Questo comporta una gestione critica dei carichi di lavoro per poter rispettare livelli di servizio (Sla) sempre più elevati sul fronte della tempestività.
– Crescente complessità e volume dei contenuti. Le tipologie di contenuti destinati ad alimentare l’Edw si espandono includendo, accanto ai tradizionali dati strutturati in modo relazionale, dati semistrutturati e destrutturati. In effetti, l’integrazione dei dati relativi ai clienti e al mercato, una delle principali applicazioni per le quali si sviluppa un Edw, viene stravolta dalla necessità di consolidare e analizzare la massa di informazioni contenuta in forma di testo non solo nelle mail, ma anche nei blog, nei social network e in tutte le varie modalità in cui si estrinseca il cosiddetto Web 2.0. Integrare dati e contenuti non strutturati comporta una rivoluzione delle analisi, con data-set molto più complessi, ma offre delle opportunità tali di business (soprattutto al marketing) da essere praticamente inevitabile.
– Sviluppo come piattaforma di analisi predittiva. Si sta assistendo allo spostamento di molte operazioni comportanti pesanti carichi di calcolo, tra le quali figurano in prima fila le analisi di previsione e proiezione statistica, verso l’esecuzione in modalità nativa all’interno dell’Edw. Spostando gli algoritmi di analisi nel Data warehouse si evita di appesantire la rete e lo storage con il movimento di grandi volumi di dati. Inoltre si possono sfruttare le soluzioni di elaborazione parallela tipiche di molti Edw, che andranno quindi considerati in quelle imprese dove proiezioni e previsioni siano vitali per la gestione del business.