“Il fenomeno dei Big data – esordisce Pietro Scott Jovane (nella foto a sinistra), amministratore delegato di Microsoft Italia – è in linea con la trasformazione digitale della nostra vita. Questo trend si sta affermando velocemente e prevede l’esplosione dei dati digitali in termini di quantità, varietà e velocità. Se sistematizzati e analizzati in maniera opportuna, questi dati possono rappresentare un patrimonio informativo strategico per comprendere e modellare il mondo che ci circonda”. Oltre all’enorme fonte informativa che nasce da blog e social media, Scott Jovane chiama in causa la cosiddetta ’Internet of Things’, per la quale anche gli oggetti hanno un’identità univoca e interfacce in grado di connettersi alla rete globale per dare informazioni utili al processi di business, mentre Luca Venturelli (nella foto a destra),che di Microsoft Italia è il direttore della Divisione Server & Cloud, osserva come la crescita dei dati si presenti con due aspetti: l’aumento dei dati originari e quello dei dati che si producono dalle interconnessioni e delle interazioni fra le informazioni. Secondo Dario Regazzoni (nella foto a sinistra), direttore tecnico di NetApp Italia, anche il passaggio al cloud computing contribuisce ad aumentare la quantità di dati, dal momento che aggrega le esigenze di centinaia di migliaia di utenti. E sebbene i dati generati dalle persone, dalle foto su Facebook ai post su Twitter, attirino l’attenzione dei media, per Regazzoni “pesano di più nell’enorme crescita dei dati i dataset generati dai computer, come il tracciamento delle abitudini dei consumatori o le analisi dei mercati finanziari”.
“Oggi però in Italia e nel mondo – osserva Paolo Degl’Innocenti (nella foto a destra), Vp Software Group di Ibm Italia – prevalgono ancora progetti Big data di primo livello”, dove cioè i dati in rete sono visti come un’estensione dei dati aziendali e sfruttati con un basso grado di condivisione, risultando comunque già molto utili per la customer experience intelligence. “Ma l’idea che sfruttare la mole di dati presente in rete oltre che in azienda valorizzi i processi di business e che servano strumenti analitici di nuova generazione per sapere non solo ciò che succede ma cosa sta per succedere circola da tempo. Ibm – prosegue Degl’Innocenti – non sottovaluta il potenziale dei Big data in scenari di cooperazione nella catena del valore, specie come miniera dei risultati prodotti da relazioni e interazioni economiche in caso di filiere, distretti industriali o aziende che fanno impresa in rete. Ed è anche da esplorare ciò che può dare in area pubblica, per i servizi al cittadino, la lotta all’evasione fiscale, la gestione della sicurezza”.
Anche per Leonardo Galimberti (nella foto a sinistra), Enterprise Information Solutions Delivery leader di Hp, i Big data non sono un fenomeno del tutto nuovo: “Le sfide derivanti dalla crescita in volume e complessità dei dati sono iniziate con il desktop computing, se non prima. L’attuale enfasi deriva però in gran parte dall’esplosione dei dati non strutturati connessi ai social network, assieme all’insorgere di nuove tecnologie che permettono di associare automaticamente a questi dati la relativa semantica, quindi il significato, al fine di derivarne conoscenza”. Il che significa integrare dati strutturati e non strutturati, statici e in streaming per rispondere alle esigenze di business in qualsiasi momento e tramite ogni dispositivo. Secondo una ricerca sulla Business intelligence condotta da Dimensional Research e commissionata da Hp [su un campione di 599 rispondenti suddivisi tra Americas 54%, Asia Pacific Japan 19%, Emea 27% di aziende dei settori tech, manufacturing, financial services, health care, retail – ndr], il 55% dei rispondenti ha chiesto d’integrare le informazioni dai social media nei propri ambienti di BI; per Ibm, i dati strutturati reperibili nei database relazionali contribuiscono all’informazione circolante all’interno o fuori dall’azienda ormai con un peso che non va oltre il 15%; il resto viene dai dati non strutturati, cioè puri contenuti da gestire.
Sul passaggio dall’approccio numerico a quello semantico interviene Amedeo Prodi (nella foto a destra), Customer Solution manager di Sap, “In certe situazioni è utile catturare anche informazioni di dettaglio, come i colori che al momento attirano di più l’attenzione, per trarre spunto su come progettare i prodotti. A volte risulta vantaggioso poter integrare dati transazionali, come le vendite, con contenuti provenienti da fonti pubbliche e inusuali, come l’andamento e le previsioni del tempo in una determinata regione. Un produttore di occhiali da sole, per esempio, potrebbe usare queste informazioni per riorganizzare la distribuzione degli articoli nei punti vendita”.
Per Enrico Proserpio (nella foto a sinistra), Sales Consultant director, Technology Division, di Oracle Italia, “Anche i db relazionali trattano enormi volumi di dati, ma i Big data non sono solo grandi, sono anche diversi tra loro e, tipicamente, non sono modellabili all’interno di un database relazionale. Possono essere dati anche abbastanza semplici – spiega Proserpio – ma arrivano da fonti diverse, come sensori, social media, log di siti web, e a velocità notevoli, specie i dati machine-to-machine. E sono mutevoli, continuano a cambiare, per cui è difficile incastonarli in una struttura definita dal modello entità-relazioni. Per cominciare a governare questi dati si comincia dalla loro acquisizione”.
Un impatto che ridisegna l’information management
Una cosa sulla quale tutti i vendor sono d’accordo è che l’impatto dei Big data sui sistemi aziendali è pervasivo e riguarda l’intero stack, infrastruttura, middleware e applicazioni, con sfide legate alle cosiddette “tre V”, ossia ai volumi, alla varietà in termini di formato e di provenienza e alla velocità con cui vanno catturati e trattati. E Galimberti (Hp), ribadisce il concetto sottolineando il fatto che: “Volume, eterogeneità, ridotta latenza e complessità pongono all’It una sfida tremenda che può essere affrontata solo ridisegnando end-to-end l’architettura di Information Management e dei relativi processi di gestione”. In particolare, precisa Regazzoni (NetApp): “I Big data stanno mettendo a dura prova le infrastrutture, e lo fanno su tre assi: quello dei volumi, perché tutti i dati raccolti devono essere al sicuro e sempre disponibili e con volumi così elevati l’It deve capire quanti dati può effettivamente gestire; quello della complessità, perché il concetto di dato non è più alfanumerico ma abbraccia anche eventi in tempo reale e informazioni collegate fra loro e costituite da più tipologie di dati, e infine quello della velocità”. A proposito della quale Regazzoni porta ad esempio i media in streaming inviati via Internet a dispositivi mobili, lo slow-motion video per la sorveglianza e i filmati ad alta definizione. Cose che per gli utenti sono normali ma che sono anche molto pesanti per i sistemi.
“C’è da architettare – dice Degl’Innocenti (Ibm) – un processo che trasformi l’informazione da dati in significati. E c’è una netta cesura con il passato perché con i Big data si lavora su una enorme mole di dati, che piovono in tempo reale da una serie di fonti eterogenee. E oltre a volumi, varietà e velocità, c’è una quarta ‘v’ da considerare: la veridicità, perché per costruire intelligence bisogna garantire dati corretti e concordanti”. Mentre Prodi (Sap) fa notare che non solo l’aumento in volumi e tipologie di formati dei dati pone il problema di dove archiviarli e delle tecnologie con cui analizzarli, ma che “Con i metodi tradizionali, all’aumento in volume dei dati si risponde riducendo il livello di dettaglio da memorizzare e analizzare. In tal modo però si perde proprio il vantaggio offerto dalla crescita dei dettagli per prendere decisioni sempre più accurate ed efficaci. La quantità dei dati è un valore e il livello di dettaglio è ciò che serve, anche se può causare un overhead dei sistemi It”.
Strade diverse, una soluzione
Date queste situazioni e queste prospettive, cosa può fare l’It per trasformare le sfide cui è sottoposta dai Big data in opportunità per l’impresa? O meglio, su quali fronti e con quali soluzioni si propongono di aiutarla i fornitori di tecnologia?
Premesso che, come osserva giustamente Venturelli (Micorosoft), “L’informazione è la nuova moneta dell’economia digitale e chi è in grado di gestirla crea valore”, per realizzare tale valore “è necessaria una piattaforma in grado di attribuire qualità al dato”. La proposta sta, come intuibile, in Windows Azure, piattaforma cloud aperta e flessibile che consente di distribuire e gestire applicazioni disponendo, come infrastruttura, di una rete di data center logici gestiti da Microsoft. Come spiega Venturelli, “Azure mira a integrare tutti i dati che arrivano dal mondo. Per questo motivo assegniamo molta importanza alla connettività con i social media e con tutti i provider di Open Data. Queste informazioni devono essere accessibili a tutti i sistemi aziendali e questo è l’obiettivo di Windows Azure Marketplace sul cloud.”
Chi invece “vuole fare in casa” deve rivedere il data center per integrarvi le nuove tecnologie create appunto per gestire e sfruttare i Big data, e cioè, elenca Galimberti (Hp): ”Infrastrutture hardware ad alte performance, comprese architetture Mpp e appliance; database ottimizzati per gestire analitiche su grandi volumi di dati, incluse tecnologie in-memory e colonnari; repository e middleware in grado di gestire, oltre ai dati strutturati, anche i dati semi e non strutturati; motori per la classificazione e indicizzazione di questi ultimi in grado di estrarne automaticamente i significati; strumenti e applicazioni che permettano all’utente di accedere in modo integrato e trasparente alle diverse tipologie di dato, unendo capacità avanzate di ricerca alle classiche funzionalità di analisi e query & reporting”. Riguardo all’analisi in particolare, secondo Prodi (Sap): “Occorre recuperare capacità di aggregazione e analisi anche nella nuova situazione, con approcci e strumenti innovativi. I datamart e datawarehouse tradizionali impongono scelte rigide di estrazione, aggregazione e analisi dei dati, mentre oggi occorre poter rompere gli schemi e creare nuove analisi nel giro di pochissimo tempo, a partire da più informazioni possibili e con una reportistica che supporti i dispositivi mobili”. Interessante e per certi versi radicale la soluzione tecnologica proposta: “Il nostro approccio prevede di trasferire i dati da più fonti in una memoria Ram, volatile ma ridondante, e invece di eseguire aggregazioni in modo tradizionale, per righe e per colonne, d’indicizzare i dati in modo che si possano analizzare anche in volumi di milioni nel giro di un secondo, con tutti i livelli di dettaglio prescelti, senza dover più scremare le informazioni”.
L’ABC dei Big data
La risposta di NetApp si articola su tre aree che Regazzoni definisce “l’ABC dei Big data”, ossia Analytics, Bandwidth e Content. La prima area è dedicata allo sviluppo di analisi efficienti per grandi set di dati. La seconda si focalizza sul raggiungimento di migliori performance per carichi di lavoro ad alta velocità, quali appunto le analisi complesse in quasi real-time o, come per gli esempi già citati, lo streaming video ad alte performance per la videosorveglianza e il montaggio e la riproduzione video nel settore dei media e dell’intrattenimento. Con l’area Content, infine, NetApp si riferisce a uno storage scalabile e sicuro. “Le soluzioni dedicate ai contenuti – spiega Regazzoni – devono poter memorizzare quantità virtualmente illimitate di dati, in modo che le grandi aziende possano eseguire ricerche su di essi senza mai perderli. In quest’ambito, un esempio efficace può essere quello della cartella clinica elettronica”.
Ibm sui Big data si è invece mossa ridisegnando il processo di trasformazione dell’informazione anche tramite una politica mirata di acquisizioni. Così si è dotata della capacità di gestire contenuti di immagini, video, web, e-mail e documenti non strutturati acquisendo con Filenet il suo Content Manager e ha replicato su Db2 l’operazione già condotta con l’acquisizione di Informix: Db2 gestisce così sia i contenuti strutturati del mondo relazionale, sia quelli non strutturati del mondo Filenet ed è alla base del processo di trasformazione, il Dbms. Sopra il Dbms vi è lo strato di data governance, che prescrive le politiche di gestione dei dati e del loro ciclo di vita, anche in termini di sicurezza e di privacy. E per le prestazioni è stata acquisita Netezza, nome primario nelle appliance di datawarehouse. Per gestire i dati che arrivano via Internet ad alta velocità Ibm ha le soluzioni del mondo InfoSphere. In particolare BigInsight, che si basa sui motori Hadoop e MapReduce (vedi anche più avanti – ndr) gestisce petabyte di stringhe di dati scremandole in streaming, al momento del transito, garantendo così brevissimi tempi di risposta. Per l’analisi destrutturata e specie per la sentiment analysis, c’è Customer Insight ad arricchire Cognos BI e per l’analisi predittiva è stata acquisita Spss, specializzata nel personalizzare applicazioni analitiche che lavorano su algoritmi e pattern recognition.
“L’obiettivo – spiega Degl’Innocenti – è completare la trasformazione dell’informazione da dato a ‘insight’ con una serie di capacità nuove, sia cross-sector che specifiche per settore. Servirà sempre un complemento progettuale, dato da consulenti e partner, ma è anche vero che non c’è praticamente ambiente che non sia potenziabile dalle analytics. E guardando alle acquisizioni fatte in area intelligence per la gestione rischi, la sicurezza, il Fraud management e altro, credo che la politica di espansione del portafoglio nel mondo degli analitici potrà continuare”.
Quanto infine a Oracle, la strada che la società di Larry Ellison ha scelto merita un discorso a parte. Si basa sull’uso dei database NoSql, una tecnologia Oracle dalla struttura più semplice del relazionale, e del file system Apache Hadoop, distribuibile su più macchine che lavorano in parallelo, entrambi calati in una appliance: Exadata. “Hadoop – spiega Proserpio – può lavorare sia per analisi molto elaborate sia per risposte estremamente veloci, come è il caso dei Big data”. Nell’universo dei dati destrutturati il NoSql Database con Hadoop MapReduce indirizza tutti i testi ed è molto adatto ai log di siti, sensori e social network (per i quali dopotutto è nato, derivando da soluzioni di Google). Poiché MapReduce esegue molto codice Java, Oracle Exadata, l’appliance per i Big data, comprende la Data Integrator Extension per i dati non strutturati (tecnicamente come ‘Big data Connector per Hadoop’), che è uno strumento già in uso per lanciare lo stesso tipo di ricerca nei datawarehouse alimentati dai db relazionali. Un secondo ‘Connector’ poi fa sì che il risultato di un’interrogazione Hadoop MapReduce venga automaticamente preparato per essere caricato in un db relazionale. I Big data di partenza sono così ridotti a un sottoinsieme di dati rilevanti (da MapReduce) e ricondotti a indicatori e informazioni compatibili con tutte le funzionalità di un Dbms come Oracle 11g. Pertanto, le aziende potranno sempre avvalersi di Oracle 11g, ma da quest’anno le query possono essere sia Sql che NoSql. Queste ultime mettendo a disposizione della BI, grazie alla piena funzionalità di Exadata, che è ‘la’ Database machine relazionale di Oracle, e agli strumenti analitici di Exalytics, anche i risultati di tutte le ricerche su Big data.