Illustrando il titolo scelto, Big Data: Fast & Smart, per presentare i dati 2018 dell’Osservatorio Big Data Analytics & Business Intelligence del Politecnico di Milano, il Responsabile Scientifico Carlo Vercellis, ha utilizzato la metafora della Formula 1: “È un mondo che ben rappresenta questi concetti. Nelle corse automobilistiche, Fast significa andare più veloci degli avversari, ma vuol dire anche dati che viaggiano a grandissima velocità, in streaming: sensori a bordo dell’auto raccolgono miriadi di dati (comportamenti degli pneumatici, informazioni su micro cambiamenti climatici, sulle strategie degli avversari ecc.) che vengono inviati in streaming agli strateghi di gara nei box e devono essere analizzati in tempo reale per restituire indicazioni ai piloti in gara. Ma non basta essere veloci – ha specificato il docente del Politecnico – bisogna essere anche Smart: essere capaci di elaborare le strategie ottimali, che non possono più essere statiche come quelle di anni fa (cambio gomme al 23° giro), ma dinamiche, basate sul flusso continuo di dati che giungono dal campo. Strategie che devono essere basate sui principi del reinforced learning, utilizzando tecnologie di intelligenza artificiale, algoritmi di machine learning; strategie che si adattano in modo dinamico al cambiamento delle condizioni che vengono identificate”, ma ancora non basta, ha incalzato Vercellis: “Ci vuole un’orchestrazione del lavoro di gruppo: l’azienda che lavora come, tornando alla metafora, il team del cambio gomme di una scuderia di Formula 1. Quindi entra in gioco anche il fattore umano: modelli organizzativi, competenze e intuizioni”.
I principali trend identificati dall’Osservatorio 2018
Nell’introdurre i 6 trend identificati dall’Osservatorio Big Data Analytics & Business Intelligence come principali evidenze del 2018, Vercellis ha anticipato alcuni dati della Ricerca (presentata qualche giorno dopo del Convegno Big Data. Fast & Smart) degli Osservatori Big Data Analytics & Business Intelligence nella quale, attraverso le risposte alla Survey Innovation 2018 di 250 tra Chief Innovation Officer e Chief Information Officer e 45 interviste dirette, è stata scattata una fotografia sull’innovazione digitale nelle imprese italiane, con previsioni per il 2019: “Nelle priorità di investimento per l’innovazione digitale per il 2019, Business Intelligence, Big Data e Analytics sono al secondo posto con il 39% [distanziati da un solo punto percentuale da Digitalizzazione e dematerializzazione, al primo posto, e a ben 7 punti dalla 3° priorità: Consolidamento, sviluppo e rinnovamento ERP, ndr]”, ha ricordato Vercellis, aggiungendo ironicamente “ma anche i CIO sbagliano”, per sottintendere che, in realtà, questa è la priorità principale.
Vediamo ora quali sono i trend evidenziati dall’Osservatorio.
Real time analytics
È ancora a una metafora sportiva che si rifà Vercellis nello spiegare questo trend: “Mentre strappa l’ennesimo record, il velocista Bolt si volta indietro con un sorriso che ridicolizza gli avversari: così come l’azienda che è in grado di sfruttare tutta la potenza della real time analytics può ‘stracciare’ i competitor, utilizzando strumenti di machine learning per sviluppare nuovi prodotti e servizi può voltarsi indietro e guardare i competitor che arrancano”.
Real time analytics (figura 2), in sé, non è certo una novità; il suo nuovo impulso innovativo sta nella possibilità di elaborare i dati in streaming, mentre continuano ad arrivare e non solo dopo essere stati depositati nei vari database o data lake: “È questa la vera potenza: l’elaborazione avviene mentre un framework per lo storage come Apache Kafka, diventato de facto lo standard per l’analisi dei dati in streaming, porta i dati nel data lake, l’analisi avviene in quello che possiamo definire il data river”. Ricordiamo che Apache Kafka è una piattaforma open source di stream processing distribuito sviluppata dall’Apache Software Foundation che consente, con bassa latenza e alta velocità, di gestire feed dati in tempo reale, effettuare ETL (Extract, Transform, Load) e, appunto, fare operazioni in tempo reale agendo direttamente sul dato durante il flusso.
“L’analisi dei dati lungo il percorso verso il data lake, estraendo insight per compiere delle azioni, è alla base di alcune innovative applicazioni nell’ambito del marketing di prossimità, dell’identificazione delle frodi, della proactive maintenance e, in generale, in tutto il mondo dell’IoT. Tutto un mondo che dà vantaggio competitivo”, ha precisato il Responsabile Scientifico.
Machine learning
“Il machine learning è il secondo trend: il cervello che permette a tutto il sistema di planning e di elaborazione delle strategie di funzionare. Algoritmi di machine learning – ha proseguito Vercellis – oggi profilano i nostri gusti, ci fanno le offerte giuste per mantenerci fedeli: la vita è più comoda, ci sono elementi di disturbo, di intromissione nella nostra privacy, è vero, ma il legislatore, con il GDPR e altre normative, è intervenuto per mitigarli”.
Il machine learning non sta solo al centro di data analysis engineering, “delle correlazioni che dal passato ci proiettano sul futuro, ma sta nel cuore di quasi tutta l’intelligenza artificiale, della robotica, del natural language processing, della visione artificiale. Gli algoritmi – ha precisato Vercellis – si basano su un’idea di representation learning: dobbiamo dapprima imparare a come rappresentare le feature, e possibilmente farlo in modo automatizzato. Il più grande pregio del deep learning è proprio questo: la capacità di rappresentare la realtà con livelli di accuratezza enormi, superiori anche a quelli umani”. Ma attenzione, ha messo in guardia il docente del Politecnico: “Machine learning e data science non si esauriscono in una semplice chiamata a una libreria di modelli, non potete illudervi che tutto sia pronto a scaffale”. E questa affermazione ci introduce al terzo trend che lascia da parte i temi Fast & Smart per addentrarsi in altri territori.
Nuove frontiere architetturali
Hadoop, framework software per l’elaborazione di elevate moli di dati in modalità parallela sviluppato dall’Apache Software Foundation, ha aperto la strada al fenomeno dei big data e si è affermato negli ultimi anni come standard tecnologico. Ma se Hadoop è stato il progetto open source che ha avuto l’impatto maggiore in ambito analytics, oggi costruire un’architettura Big Data non coincide soltanto con l’adozione di questo strumento: “Questo mondo sta diventando sempre più complesso, tutti i sistemi che stanno intorno ad Hadoop e ai sistemi di storage distribuiti si arricchiscono di componenti. La necessità di applicare il machine learning in modalità distribuita ha fatto sì che nascesse uno strato particolarmente efficace di soluzioni come Apache Spark , motore di elaborazione nel cluster Hadoop, o il già citato Apache Kafka. Le architetture possibili sono diverse, bisogna sapersi orientare, ma bisogna sperimentare, le aziende devono utilizzare nuovi sistemi che richiedono competenze molto ampie, estese. Può quindi essere necessario ricorrere a competenze esterne, l’importante è farlo nella prospettiva di avere ben chiaro qual è l’obiettivo che si intende raggiungere”.
E qui la strada da compiere è ancora molta per le aziende italiane. L’Osservatorio evidenzia infatti come la capacità di muoversi in questo contesto sia ancora rara nelle grandi aziende italiane, che sopperiscono a questa mancanza affidando la costruzione dell’infrastruttura ai partner tecnologici, spesso senza un disegno architetturale di lungo periodo.
Hybrid cloud ed edge computing
Vercellis, nell’introdurre il 4° trend, lascia la metafora dello sport per avvicinarsi al mondo animale, quello delle api: “L’ape non è particolarmente intelligente, ma è un agente autonomo: dopo avere preso il nettare dal fiore, inizia, grazie a particolari enzimi, il processo di trasformazione che consente di produrre il miele già mentre viaggia verso l’alveare. E questa è un’ottima metafora per rappresentare l’edge computing: ci sono miliardi di sensori nel mondo e quindi è ovvio che l’elaborazione debba avvenire localmente, tant’è che abbiamo sistemi che incorporano GPU per l’elaborazione decentrata, altrimenti ci sarebbe un sovraccarico insopportabile per la rete a causa del trasporto di tutti questi dati”.
Ma l’edge computing deve essere coadiuvato dalle risorse centralizzate in cloud nella sua più avanzata accezione ossia nel contesto di un hybrid IT: “Un ibrido tra strutture private e diversi cloud pubblici che abilita una flessibilità ancora maggiore, limita i movimenti dei dati e consente l’esecuzione degli Analytics dove i dati sono memorizzati. Ottimizzazione dei costi, dunque, ma anche maggiore agilità e migliore gestione dei requisiti legali in termini di privacy e confidenzialità dei dati”.
Data as a service
Nel penultimo trend Vercellis torna indirettamente alla metafora dello sport: “Così come nella nostra infanzia collezionavamo le mitiche figurine Panini, oggi le aziende stanno collezionando sempre più dati. Non tutti necessari: ci sono dati che non interessa conservare gelosamente, ma che si è disposti a condividere o scambiare (come le figurine doppie); viceversa qualcuno ha dei dati che ci mancano e che si è disposti ad acquistare (come le figurine mancanti). Questo apre scenari nuovi, dove i dati vengono monetizzati, e apre spazio a figure nuove come il data broker, che fa intermediazione tra domanda e offerta di dati”.
L’Osservatorio rileva che il 2018 rappresenta su questo tema un anno importante: nel confronto con il 2016, si registra una crescita a doppia cifra sia delle aziende che svolgono il ruolo di data provider sia di quelle che acquistano dati da altri data provider, da banche dati pubbliche e o da partner commerciali (figura 3).
Data literacy
Il cerchio si chiude tornando alla metafora della Formula 1: “I dati ci sono, si analizzano, ma ne emerge un cruscotto molto complesso, la cui interpretazione deve essere condivisa perché bisogna saper organizzare questi dati, gli insight devono diventare storie, bisogna costruire degli storytelling dei dati e bisogna saperli comunicare. È un lavoro di squadra, esattamente come quello della Formula 1”.
Ecco quindi l’ultimo trend, che l’Osservatorio definisce con Data Literacy, o information literacy, ossia la capacità di identificare, individuare, valutare, organizzare, utilizzare e comunicare le informazioni. In altre parole, con il termine Data Literacy si intende l’alfabetizzazione dei dati, la capacità di interpretarli correttamente e di raccontare un fenomeno attraverso di essi. L’importanza di questa competenza è sempre più chiara alle aziende, in particolar modo ai ruoli manageriali, ai quali viene richiesto (e a loro volta richiedono) di costruire un processo decisionale data-driven.
La diffusione della Data Literacy passa attraverso una maggiore diffusione delle figure professionali legate ai dati e dei corsi di studio per formarli, ma non è tutto: i Self-service Data Analytics (figura 4), ovvero la diffusione di strumenti che permettono all’utente di business di gestire in autonomia il processo d’interrogazione dei dati (dall’esplorazione all’analisi, fino alla visualizzazione degli insight), diventa driver tecnologico per abituare all’utilizzo dei dati un numero maggiore di utenti e al contempo è la prima conseguenza della crescente diffusione di data literacy nelle aziende.