La trasformazione digitale sta sempre più rivelandosi una transizione non facile da metabolizzare e implementare nelle diverse organizzazioni, perché costellata di continue sfide: ancora alle prese con problemi di formazione culturale sul trattamento e il valore del dato, e con strategie di miglioramento della ‘data literacy’, le aziende che hanno finalmente acquisito familiarità con metodologie e strumenti di analisi di big data, ora, devono perentoriamente concentrarsi su un altro target: i fast data.
Dai big data ai fast data, un passo delicato
Considerando come sta evolvendosi il trend di generazione dei grandi volumi di dati, oggi, per restare competitive sul mercato, le organizzazioni non possono più unicamente far affidamento su tecnologie, strumenti e modelli ‘classici’ di analisi dei big data: se fino a ieri i processi di elaborazione “batch” erano prevalenti nelle organizzazioni, e framework per l’elaborazione distribuita di grandi data set, come Apache Hadoop, potevano dimostrarsi sufficienti a soddisfare le esigenze aziendali, attualmente, l’esplodere dei fast data, e la marcata accelerazione della loro importanza per il business, stanno di nuovo complicando lo scenario tecnologico e strategico: negli attuali contesti imprenditoriali, la velocità con cui avvengono variazioni nei dati impone di far evolvere anche il modo in cui i dati stessi vengono elaborati e rivisti.
In questi casi, le convenzionali tecniche di programmazione degli aggiornamenti a ritmo quotidiano, o la memorizzazione delle informazioni in data lake per un’analisi differita, diventano pratiche obsolete. Crescono, invece, casi d’uso e applicazioni in cui la massima freschezza del dato, il suo aggiornamento immediato, o in un tempo molto breve, risultano essenziali. La velocità di analisi del dato diventa quindi un requisito prioritario, rispetto al volume, per attivare azioni di business davvero efficaci, o per fornire a utenti finali e clienti esperienze d’uso più complete e soddisfacenti per app e servizi, come quelle che fanno leva sull’omnicanalità.
Senza l’abilità di analizzare e integrare in tempo reale i dati raccolti dai diversi touchpoint, online e offline, con cui il consumatore interagisce, risulta difficile fornire servizi omnicanale. Ad esempio, nelle applicazioni che amministrano account relativi al proprio operatore telefonico, a social network o a servizi di home banking, senza l’elaborazione e lo sfruttamento dei fast data, difficilmente sarebbe possibile fornire all’utente app con cui è possibile eseguire transazioni, operazioni, e poi visualizzare subito, anche utilizzando dispositivi differenti, dati e informazioni sempre coerenti, integrati e aggiornati in tempo reale, 24 ore su 24.
Sviluppare la capacità di analisi degli stream di fast data diventa quindi un’opportunità per differenziarsi dalla concorrenza, anche se ciò richiede l’implementazione di architetture e strumenti IT appositamente sviluppati per amministrare con efficacia ed efficienza tali tipologie di dati.
Cosa sono i fast data
Contestualizzati all’interno delle grandi moli di big data, i fast data si possono identificare e definire come tutti quei flussi di dati, originati in applicazioni e dispositivi, che necessitano di essere analizzati in tempo reale, o ‘near real-time’, perché il risultato della loro elaborazione serve, ad esempio, ad attuare immediatamente un’azione automatica in un processo industriale, o ad attivare subito un’azione di business che può massimizzare il valore di un dato prodotto o servizio.
La crescente rilevanza dei fast data si origina e si spiega, appunto, con lo sviluppo e la diffusione di tecnologie e applicazioni che generano di continuo flussi di dati (streaming) in tempo reale: buoni esempi di dati ‘time-sensitive’ possono essere:
- le comunicazioni M2M (machine-to-machine) su canali wired o wireless, come quelle tra sensori, attuatori, sistemi embedded, macchine ed appliance
- l’acquisizione e l’elaborazione in real-time di dati di telemetria rilevati e generati da sensori e dispositivi IoT (Internet of Things) nelle diverse applicazioni
- il rilevamento di dati geolocalizzati
- le transazioni finanziarie di varia natura
- i dati elaborati in real-time dai sistemi di autenticazione e autorizzazione
- le tecnologie evolute di cybersecurity, in grado di riconoscere sul momento, tramite l’analisi dei dati, anomalie e possibili minacce informatiche, e di reagire mettendo in atto in maniera tempestiva opportune contromisure.
Usare i fast data per diventare imprese ‘insights-driven’
Rispetto a una fase in cui, nel modello delle 3V (volume, velocità, varietà) usato per caratterizzare i big data, veniva sottolineato il valore della componente ‘volume’, oggi, come si è visto, nel contesto di sviluppo delle applicazioni fast data, la componente velocità, sta diventando preponderante.
Oggi, più che adottare un approccio ‘data-driven’, che non equivale necessariamente ad avere più insight, cioè informazioni di valore per il business, alle organizzazioni, chiarisce la società di ricerche di mercato Forrester, serve trasformarsi in imprese ‘insights-driven’, in grado di sfruttare e implementare in modo rapido, strategico, e su larga scala, tali informazioni di valore per creare esperienze, prodotti e servizi capaci di fare la differenza rispetto ai concorrenti. In un rapporto del 2018, intitolato “Insights-Driven Businesses Set The Pace For Global Growth”, Forrester parla della formazione di questa nuova categoria di imprese: esse stanno crescendo in media di oltre il 30% all’anno e sono sulla buona strada per raggiungere guadagni di 1,8 trilioni di dollari entro il 2021. Si tratta di aziende “customer-obsessed”, impegnate in modo sistematico a sfruttare gli insight all’interno della propria organizzazione, e a implementarli per ottimizzare di continuo le ‘customer experience’, e creare un vantaggio competitivo attraverso il software.
La velocità di analisi dei dati è un requisito fondamentale. La prossima frontiera del vantaggio competitivo, avverte Forrester, è la velocità a cui è possibile estrarre valore dai dati. Peraltro, gli insight che le organizzazioni riescono a estrarre dai dati sono essi stessi time-sensitive, e caratterizzati da un differente grado di deperibilità nel tempo, che dipende dalla tipologia a cui appartengono (real-time insights, operational insights, performance insights, strategic insights).
Per contro, come accennato, le architetture dati esistenti, incentrate su tecnologie analitiche tradizionali, silos informativi, e sistemi legacy, risultano troppo lente per sostenere questi nuovi requisiti di velocità di elaborazione. Dunque, come accennato all’inizio, nell’intraprendere progetti di sfruttamento dei fast data, per le aziende diventa cruciale comprendere come far evolvere le proprie infrastrutture IT, e quali tecnologie e tipologie di architetture dati adottare per supportare processi di elaborazione così rapidi ed evoluti.
Quali architetture dati servono per governare i fast data
Nel libro “Fast Data Architectures for Streaming Applications – Getting Answers Now from Data Sets that Never End”, pubblicato da O’Reilly, Dean Wampler, esperto del settore in ingegnerizzazione del machine learning (ML), streaming data, e linguaggio Scala, tratta in maniera approfondita le tecnologie che costituiscono le fondamenta delle architetture IT per i fast data.
In ogni caso è possibile definire i requisiti basilari di un’architettura dati moderna, adatta a gestire dati in tempo reale: essa si identifica come un’infrastruttura IT ad alte prestazioni, capace di scalare la capacità in modo elastico, di elaborare grandi volumi di dati in real-time, e dotata di grande resilienza, flessibilità e dinamicità. Questi requisiti possono essere, in sostanza, soddisfatti tutti assieme adottando un’infrastruttura IT improntata sul modello cloud e abbinata a un’architettura applicativa cloud-native: dove, però, ‘modello cloud’ non vuol dire indirizzare univocamente la scelta tecnologica verso un cloud pubblico, ma considerare anche opzioni come ambienti on-premise, o cloud privati o ibridi, che possono arrivare a rispondere a molti di tali requisiti mediante il ricorso a tecnologie di containerizzazione come Docker e piattaforme open source come Kubernetes, che gestisce workload containerizzati e servizi. Si sta parlando, quindi, di architetture dati basate su microservizi, in cui, di conseguenza, diventa importante anche avere disponibili strumenti adeguati di gestione e monitoraggio dello stato dei vari componenti che costituiscono le applicazioni distribuite.
In generale, le tecnologie in campo per costruire sistemi fast data moderni sono numerose, spesso appartengono al mondo open source, e vanno a coprire tutte le fasi chiave del ciclo di gestione dei dati.