I big data rappresentano una massa di dati immensa per quantità e variegata per qualità con la quale il business e l’It si devono necessariamente misurare. Perché il valore che se ne può ricavare è tale da poter creare un differenziale competitivo determinante. ZeroUno, in partnership con Sap e NetConsulting, ha svolto pochi mesi fa una web survey, dal titolo “Big data: criticità, aspettative e soluzioni delle aziende in Italia”, con l’obiettivo di indagare come si stanno comportando, quali strumenti utilizzano e quali processi stanno attivando le aziende italiane per analizzare questa importante fonte di informazioni.
Hanno risposto all’indagine 112 aziende attive prevalentemente nei settori Industria, Ict e Servizi (64%) ma anche nel mondo del Finance (36%) e nei comparti della Pa e Università (7%), dei Trasporti (7%) e della Distribuzione (3,5%); trascurabile appare la presenza di aziende dei settori Editoria ed Energy (in ognuno dei quali opera il 2,3% delle aziende) mentre completano il quadro alcune realtà del settore delle costruzioni.
Dai primi dati emersi, risulta evidente il fortissimo interesse per la tematica legata ai big data, indipendentemente dai database (Db) presenti in azienda. In questa indagine, infatti, per riuscire a meglio classificare le aziende si è cercato di fotografare la consistenza attuale della base dati perché, nonostante le dimensioni non influenzino l’interesse, alto, per il tema, di fatto la consistenza dei database e come sono collocati i dati sono due elementi che, come vedremo più avanti, impattano sulle tempistiche di raccolta ed elaborazione degli stessi. Le aziende del panel sono dunque state suddivise in: aziende con Db piccolo (inferiore a 10 Terabyte-Tb – rappresentano il 50,9% delle aziende); aziende con Db medio (da 10 a 100 Tb – rappresentano il 27,7% del campione); aziende con Db grande (superiore ai 100 Tb – vede coinvolte il 21,4% delle aziende del panel; in alcuni casi il database principale è prossimo o supera i 1000 Tb).
L'estensione di una strategia di Business Intelligence
Prima di approfondire l’analisi delle risposte relative ai big data è opportuno rilevare come le aziende del campione si pongano di fronte al tema della business intelligence, presupposto indispensabile che mostra come le aziende siano sensibili ai temi di analisi dei dati e come questi siano già integrati nei processi aziendali abitualmente svolti dalle varie linee di business.
Disporre di soluzioni di BI rappresenta un importante presupposto per poi estendere ai big data questa attività. L’analisi mostra come la BI sia già parte integrante e continua per i 2/3 delle realtà del campione, con valori crescenti che sfiorano l’80% per le realtà con grandi Db (figura 1). Se a questi valori si associano anche quelli di realtà che compiono attività di BI in modo saltuario, questi valori crescono ed arrivano a superare il 90% in modo trasversale tra le varie classi.
La BI è un tema in continua trasformazione ed evoluzione: questo è confermato dalla presenza di numerose attività progettuali che coinvolgono le imprese nel 2012 ed in modo più rilevante si concretizzeranno nel 2013 per oltre il 60% delle realtà del campione. Solo il 20% ritiene il modello attuale soddisfacente (in particolare fra le realtà che devono analizzare moli di dati decisamente inferiori rispetto alle altre) mentre per il 10% circa, composto in prevalenza da realtà con Db di media e grande dimensione, la recente introduzione di modelli di analisi dei dati non consente ancora una valutazione obiettiva che porti ad ulteriori evoluzioni o cambiamenti.
Ma, come dicevamo, i big data sono un argomento rilevante per le aziende: ciò è dimostrato dal fatto che oltre la metà delle realtà del campione ha già portato l’argomento all’attenzione del top management. Questi valori sono direttamente correlati alla grandezza delle base dati: infatti sono pari al 42% nelle realtà con piccoli Db, salgono al 61% nelle aziende con Db medi fino ad arrivare all’87,5% nelle aziende con grandi basi dati.
Ecco perché si guarda ai Big data…
Il perché i big data rappresentino un argomento Top lo dimostrano i dati relativi ai vantaggi percepiti, o alle aspettative. Sono essenzialmente due le aree in cui l’analisi dei big data può portare alle aziende significativi benefici: la prima in assoluto è legata all’esigenza di maggiore conoscenza e comprensione del comportamento della clientela (59,8% – indicata in modo particolare da aziende che si pongono in ambito B2C), da ottenere tramite l’analisi di dati strutturati e non, provenienti da varie fonti, sia dirette dell’azienda che presenti sul web, integrando l’analisi tradizionale con un’analisi di tipo semantico (portando quindi a una crescita esponenziale dei volumi di dati); questo obiettivo primario si raggiunge anche tramite il collegamento di modelli e comportamenti di acquisto finalizzati a creare una maggiore fidelizzazione della clientela, oltre che alla possibilità di svolgere attività di cross selling, sempre derivante da una profilazione più completa ed approfondita del cliente (figura 2).
Dall’altro lato, i big data possono generare vantaggi derivanti dall’ottimizzazione dei processi interni (per il 35,7% delle aziende) e, di conseguenza, dall’aumento della produttività aziendale (esigenza segnalata principalmente dal mondo industriale e informatico), grazie alla riduzione del time-to-market e alla maggiore efficacia delle azioni svolte.
Anche l’analisi per classe dimensionale conferma sostanzialmente il ranking emerso nel campione a livello complessivo per quanto riguarda i principali ambiti beneficiari dell’analisi sui big data.
Tuttavia sono presenti alcuni elementi distintivi per le varie fasce dimensionali che è opportuno sottolineare.
Da un lato, per le realtà con grandi Db emerge come importante la riduzione dei rischi operativi e la capacità di identificare nuove opportunità di mercato derivante dall’analisi dei big data. Per le realtà con Db di media dimensione risulta importante l’attività di cross selling sui clienti esistenti, spesso approcciati in modo differente e asincrono dalle varie aree di vendita delle aziende; i big data, dando una vista integrata del cliente, possono invece portare a un approccio univoco e coerente che mostra grandi benefici per l’azienda, ottimizzando l’effort e risultando maggiormente efficace. Infine, per le realtà con Db contenuti in dimensione, l’analisi dei big data rappresenta un mezzo per migliorare l’efficienza interna e la produttività: nonostante le basi dati non siano paragonabili a quelle delle altre realtà analizzate, la presenza di strutture di minori dimensioni, associata spesso alla mancanza di strumenti ottimali, rende difficoltosa l’attività e di conseguenza tra i principali benefici vi è l’aumento della produttività.
Le soluzioni già in uso e i problemi
Dall’indagine è emerso che i Db tradizionali e le soluzioni di BI sono gli strumenti It largamente più utilizzati per analizzare i big data, anche in realtà dove i dati raggiungono e superano i PetaByte. L’utilizzo di queste soluzioni ha un impatto diretto sia nei tempi di raccolta che su quelli di analisi e di caricamento, che invece si riducono drasticamente se si utilizzano tecnologie più evolute che compiono analisi continue e parallele sui dati. Laddove invece le basi dati sono più ridotte, aumenta la capacità e la possibilità di integrare l’analisi dei big data con strumenti più evoluti di in-memory technology, il cui utilizzo è facilitato, in questi casi, da costi e tecnologie (capacità elaborativa) gestibili dalle aziende.
Trasversale, invece, la presenza di apposite appliance che nativamente permettono di analizzare e gestire grandi moli di dati mentre i Db colonnari vedono un maggiore utilizzo a supporto della gestione dei grandi Db. Questi strumenti evoluti offrono la possibilità di gestire in tempi brevi tabelle costituite da decine di milioni di record, anche eseguendo query complesse in grado di raggiungere livelli ottimi di raccolta, analisi e caricamento real-time.
La complessità di gestione dei big data, ad ogni modo, non è legata solamente alla mole dei dati stessi ma anche alla loro localizzazione, da cui deriva spesso una modalità di gestione differente che quindi implica un’attività di normalizzazione degli stessi da attuare nel momento successivo alla raccolta.
La figura 4 evidenza come oltre la metà delle realtà chiamate a gestire moli di dati di media e grande dimensione debba operare su almeno cinque tipologie di applicazioni differenti e che solo in casi sporadici derivano da un’unica fonte. Nel complesso, emerge un contesto di estrema frammentazione delle fonti informatiche e ciò caratterizza anche le realtà con database contenuti, che sono alimentati tuttavia da tre o più applicazioni di origine dei dati.
Il valore delle informazioni, infatti, non dipende solamente dalla sua accuratezza ma anche dal fatto di essere a disposizione nel momento in cui il suo utilizzo permette all’azienda di ottenere dei benefici concreti.
Trovare il valore dei dati non strutturati
In linea con le attese (date le tecnologie oggi utilizzate dalle aziende) l’indagine ha rilevato una situazione in cui circa metà delle aziende, in modo pressoché indistinto nelle varie classi dimensionali di Db analizzate, non riescono a raccogliere i dati con tempistiche quantomeno settimanali, e un’azienda su cinque riesce con una periodicità almeno mensile. Solo un terzo delle aziende ha indicato una tempistica giornaliera mentre il tempo reale è una prerogativa quasi assoluta delle grandi realtà che, pur avendo ingenti moli di dati, sono in grado di analizzarli e avere benefici in real-time.
Un altro elemento che rende difficoltosa l’analisi dei dati deriva dalla loro natura: per definizione un dato strutturato è un’informazione che generalmente è codificata secondo degli standard (predefiniti dall’azienda) che ne rendono l’analisi più facilitata.
La ricerca evidenzia però come, in modo trasversale e crescente rispetto al volume dei dati da gestire, via sia un’elevata quantità di dati che si è chiamati a gestire che non risponde a una classificazione standard.
E proprio il crescente interesse per l’analisi di dati riguardanti la clientela, sia attuale che prospect, sta portando le aziende ad analizzare anche dati non strutturati. È evidente che dati ed informazioni presenti sui social media, sui blog e relativi a relazioni, opinioni ed interazioni siano di fondamentale importanza per le aziende e per le propria attività. I dati non strutturati, proprio per la loro natura e per le difficoltà di classificazione, generano e fanno crescere esponenzialmente il perimetro e la mole di dati che le aziende devono sapere rilevare e leggere. E’ quindi molto significativo e realistico che le realtà con grandi Db nel 50% dei casi hanno indicato come molto importante l’analisi di questo tipo di dati, che già oggi rappresentano metà del volume dei big data. Nelle aziende con Db piccoli e medi, questi valori sono inferiori ma ugualmente significativi se associati a un livello di interesse medio, segnalato da circa il 45% del campione.
Il real-time, però, non è però per tutte le aziende analizzate il traguardo da raggiungere in termini di tempistica di caricamento dei dati. Ad eccezione del mondo finanziario che si conferma il più desideroso di real-time, nel mondo industriale e della Gdo, tempistiche di caricamento di big data effettuate con scadenze settimanili/mensili sono ancora oggi valutate come positive e più che adeguate.