Guardando al panorama dei forum e dei siti Internet, è facile notare come il tema dei big data sia legato automaticamente alla parola Hadoop. Questa piattaforma è una tecnologia open source utilizzata per l’elaborazione di grandi quantità di dati in un ambiente informatico distribuito. Sembrerebbe, quindi, una tecnologia piuttosto “cool”. Ma a ben guardare, secondo i dati di una nuova ricerca, le cose non stanno proprio così.
David Menninger, direttore ricerche di Ventana Research, ha pubblicato un report dal titolo “The Challenge of Big Data: Benchmarking Large-Scale Data Management Insights”, che delinea il terreno dei big data. Si tratta di un’indagine condotta su un campione di 163 specialisti qualificati.
Secondo il rapporto, il modo in cui un’azienda gestisce grandi insiemi di dati, strutturati e non, che crescono a un ritmo rapido è ancora in evoluzione.
La conclusione è che il deployment di un solo strumento come Hadoop non la scelta più seguita. Invece, le imprese che entrano nel vortice dei big data lo fanno con strumenti analitici di base e una pletora di tool a contorno, a partire da quelli già disponibili in casa.
La ricerca ha anche identificato il deficit di competenze specifiche in materia come uno dei maggiori ostacoli alla gestione corretta dei big data.
La tecnologia
I termini “big data” sono utilizzati per descrivere la quantità voluminosa di dati strutturati, non strutturati e semi-strutturati che si creano all’interno di un’organizzazione; dati che in molti casi non vengono caricati su database relazionali, per sottoporli a successive analisi, perché questo richiederebbe uno sforzo titanico in termini di tempo e denaro.
La ricerca mostra come solo il 22% del campione stia utilizzando Hadoop, ovvero abbia optato per la scelta di un progetto open source di gestione dei big data. Poco meno degli intervistati, invece, ovvero il 45% circa, sostiene di non aver intenzione di introdurre, ma neppure di valutare, questa tecnologia. E l’analista non sembra sorpreso dei risultati: “Le tecnologie più trendy hanno una curva d’adozione tipica suddivisa in quattro fasi. I primi (early adopter – ndr), quelli che li seguono (follower – ndr) in tempi brevi, il mercato di massa e i ritardatari. Mentre l’interesse per Hadoop sta crescendo a dismisura, il mercato non è ancora pronto”.
Il metodo più popolare di gestione dei big data è, oggi, relativamente semplice: l’89% degli intervistati ha indicato il database relazionale come il principale strumento utilizzato per trattare su larga scala i dati aziendali.
“Molto probabilmente – sostiene Menninger.-, le aziende utilizzano la tecnologia di default fino a quando è possibile farlo. Esiste una soglia, diversa da azienda ad azienda, al di sopra della quale il quantitativo di dati da gestire non permette più di utilizzare il database o i tradizionali strumenti di gestione dei dati e da qui in poi occorre correre ai ripari. Quello che emerge dall’analisi è che nessuna tecnologia spicca in maniera chiara sulle altre. Le aziende, invece, stanno adottando un approccio fai-da-te, improvvisando e mettendo insieme alla meglio pezzi di strumenti e tecnologie”.
Dell’89% degli intervistati che utilizzano database relazionali per i big data, il 93% ha indicato anche che utilizza uno strumento secondario di gestione dei big data, in abbinamento al DB.
La cosa che, in realtà ha molto sorpreso Menninger è stata la diffusione delle tecnologie “in memory”.
L’indagine ha rilevato che il 33% degli intervistati utilizza database in memoria, mentre un altro 17% ha indicato che prevede di utilizzare questa tecnologia nel prossimo anno o due.
Analisi di base
Anche se le imprese dispongono, oggi, di enormi quantità di dati, tendono ancora ad analizzarli utilizzando tecniche piuttosto basilari. La maggior parte degli intervistati, ovvero il 94%, ha indicato che funzionalità di query e reporting sono disponibili all’interno delle loro organizzazioni per l’analisi dei big data, mentre solo il 55% ha introdotto funzionalità previsionali più avanzate o strumenti di data mining. “Con l’aumento del volume di dati che transitano in azienda, fare analisi semplici diventa insufficiente – sostiene l’analista -. L’idea di provare a sfogliare miliardi di valori per trovare quelli che sono importanti risulta, infatti, parecchio impegnativo, se non addirittura impossibile. Spulciare i big data alla ricerca di un particolare valore non è il metodo più efficiente per compiere le analisi”.
Menninger ritiene però che, come la tecnologia, anche le tecniche di analisi seguano una traiettoria che inizia dalla base e prosegue fino ai livelli più avanzati. “Le analisi più avanzate sono quelle utilizzate meno di frequente – dice -. Funzionalità quali la pianificazione, il forecasting, le analisi what-if e le analisi predittive sono ancora poco diffuse negli ambienti di gestione dei big data e, in generale nella Business Intelligence. Nonostante questo, le aziende che riescono a far evolvere i loro programmi di analisi risultano meglio posizionate sul mercato rispetto a quelle che fondano le proprie decisioni su semplici attività di query e reporting”.
Parte della colpa di questa arretratezza è legata alla scarsità di talenti. “Far progredire un programma di analisi dei big data – sottolinea – può significare investire in nuovi talenti o in formazione complementare per i dipendenti”.
2/3 degli intervistati hanno dichiarato di essere costretti a formare il personale relativamente ai progetti di gestione dei big data in corso e il 56% ha dichiarato che dovrà formare il personale per sostenere adeguatamente i progetti futuri.
“Abbiamo bisogno di più gente che sia in grado di capire come lavorare con grandi volumi di dati e riesca ad applicare tecniche più avanzate di analisi per i big data – conclude Menninger -. Molte organizzazioni stanno cominciando a collegare le analisi avanzate con le figure esperte dei data scientist. Si tratta di una manodopera altamente qualificata, in grado di scavare nei dati ed estrapolare collegamenti all’apparenza invisibili, modelli di riferimento e intuizioni geniali, tuttavia questo può non essere sufficiente. Capire le interazioni che esistono tra le diverse tipologie di analisi che si stanno eseguendo e il modo in cui i dati sono distribuiti all’interno delle varie macchine presenti in azienda è ancora molto importante per assicurare che il sistema di gestione dei big data non solo funzioni, ma sia in grado di funzionare bene”.