DataOps come pilastro della Intelligent Company

Il percorso verso la Intelligent Company presuppone l’adozione di nuovi modelli di gestione dei dati. Fortemente ispirato ai principi di sviluppo agile e alle metodologie DevOps, DataOps promette time to market ridotti, maggiore fiducia nel dato e un incremento esponenziale di produttività per engineer, scientist e analyst

La tendenza evolutiva delle enterprise moderne è sintetizzata da alcune espressioni: una è la data-driven company, l’azienda i cui processi decisionali, a livello strategico e operativo, sono guidati dai dati. Un altro trend, connesso al precedente, è la intelligent company, che all’adozione dei dati somma il pervasivo sfruttamento degli advanced analytics e dell’intelligenza artificiale. A livello evolutivo, difficilmente un’azienda intraprende un percorso di valorizzazione dei dati, che comporta una profonda trasformazione a livello culturale, organizzativo e di processi, senza ambire alle tecnologie esponenziali. In tale contesto si pone la metodologia DataOps, ma procediamo con ordine.

Indice degli argomenti

La strada verso la data-driven company è in salita

Oggi, buona parte delle imprese si professa data-driven, ma i numeri raccontano un’altra storia: innanzitutto, le decisioni guidate dai dati sono soltanto quelle strategiche, che non superano il 5% del totale; la data-culture è ancora poco pervasiva; i silos di dati e le iniziative dipartimentali imperversano, ponendo alcuni limiti di natura tecnica, oltre che organizzativa.

Lo stato dell’arte

Si crea così una frattura tra le aspettative del management e il reale stato dell’arte: secondo IDC, il 60% delle enterprise si aspetta che i propri employee prendano decisioni data-driven, ma poi una piccola parte di questi si fida dei dati e solo 1/3 ritiene che le decisioni siano effettivamente indirizzate da questi.

Secondo gli studi di New Vantage Partners, il 97% delle organizzazioni investe in iniziative di valorizzazione dei dati, ma solo il 26,5% ritiene di aver creato una data-driven organization.

L’aumento di complessità

Ci si domanda perché le enterprise fatichino ad adottare un modello sistemico e pervasivo di valorizzazione dei dati, soprattutto in un’era contraddistinta dal costante incremento di volumi, velocità e varietà di dati. Ai motivi evidenziati possiamo aggiungere la necessità di rispettare policy e impianti normativi sempre più stringenti (cosa che pone considerazioni di data governance); l’aumento esponenziale di complessità delle architetture IT, che rende complesso anche solo comprendere dove si trovino i dati in modelli di hybrid multicloud; la grande quantità di workflow e attività che costituisce le data pipeline moderne, con cui i produttori di dati (producer) consegnano data asset di valore ai consumatori (consumer) per impieghi analitici, costruzione di modelli di intelligenza artificiale e decisioni di business.

L’aumento di complessità delle data pipeline, ognuna delle quali necessita di un attento coordinamento di dati, professionalità e tool differenti, si aggiunge a una data-culture non esemplare per produrre risultati non soddisfacenti. Secondo IDC il 65% delle enterprise adotta non meno di 10 tool di data engineering e data intelligence, mentre Gartner sostiene che l’87% dei progetti di Data Science non arrivino in produzione.

Da “cosa fare” a “come farlo”: l’origine di DataOps

A monte del problema potrebbe esserci anche una questione percettiva: le imprese, e in particolare i data team, si concentrano sull’esecuzione dei task che compongono le pipeline (acquisizione, trasformazione, modellazione, qualità, visualizzazione, governance, sicurezza) per avere successo, dovrebbero invece dedicare molta attenzione anche a come tutte queste attività vengono effettivamente svolte, concatenate e coordinate sinergicamente all’interno di un unico processo che coinvolge più tool e professionalità complementari.

La metodologia DataOps risponde, di fatto, a un’affermazione di IDC, secondo cui è vero che le aziende oggi hanno a disposizione strumenti, tecnologie e tool di ogni genere per modernizzare i propri ambienti dati, ma è parimenti vero che “la libertà senza un framework diventa caos”.

DataOps è dunque un framework, un insieme di pratiche tecniche, norme culturali e principi (sintetizzati nel DataOps Manifesto) finalizzati a industrializzare gli aspetti operativi delle data initiatives aziendali, efficientandole e a migliorandone la qualità. Nel Manifesto rientrano requisiti culturali, organizzativi e strategici necessari per adottare una metodologia che ha forti punti di contatto (ma non è identica) con DevOps e con i principi dello sviluppo Agile.

DataOps: modularità, automazione, orchestrazione

Un concetto fondante di DataOps è che “analytics is code”: tutte le routine di acquisizione, di trasformazione (ETL), di analisi e, più in generale, gli step che portano il dato raw fino al consumatore, devono essere ispirati a principi di modularità, automazione, iterazione e miglioramento continuo.

Così come DevOps, anche il nuovo paradigma di data management punta molto sull’aumento nella frequenza dei rilasci – fondamentale per assecondare la velocità del business – sul monitoring e testing automatizzato, sul version control e sulla collaborazione.

Data la quantità di workflow, di strumenti e processi che compongono una pipeline, DataOps automatizza le attività di testing e di analisi del comportamento dei dati e della pipeline stessa, così da rilevare anomalie che possono condizionare la qualità e segnalarle prontamente.

Il fine è quello di semplificare e creare automated data pipeline che promuovano la collaborazione tra professionalità e sollevino i team da attività ripetitive, soggette a errori e a basso valore aggiunto. Non è un caso che l’attenzione per la metodologia DataOps cresca parallelamente allo sviluppo di paradigmi sistemici e moderni di data management come il Data Fabric.

DataOps: benefici e tecnologie abilitanti

Per quanto concerne i benefici attesi dall’adozione della metodologia DataOps, l’accelerazione del time to market è in assoluto il primo dell’elenco, con un impatto straordinario sul business.

La collaborazione, l’orchestrazione e l’automazione favoriscono la data quality che, a sua volta, aumenta la fiducia nel dato e alimenta la data culture. Abbattimento degli errori, forte spinta su innovazione e sperimentazione, collaborazione tra diversi ambienti, tecnologie e professionisti, aumento esponenziale della produttività di data engineer, data analyst e data scientist, nonché trasparenza sui risultati sono altri aspetti meritevoli di menzione.

Infine, ma non per importanza, che dire dell’abilitazione tecnologica? Di cosa ha bisogno un’impresa per implementare un framework DataOps? Il tema è complesso, poiché il mercato è in continua evoluzione.

Di sicuro, DataOps non richiede la sostituzione dei tool in uso per le data pipeline, bensì l’aggiunta di strumenti in grado fornire al processo le caratteristiche peculiari del nuovo paradigma, e in particolare l’orchestrazione e il testing automatizzato attraverso tutta la pipeline.

A titolo d’esempio, un’ipotesi consiste nell’integrare alcuni componenti DataOps per l’orchestrazione come Apache Airflow, iCEDQ per il testing e monitoring automatizzato e tecnologie di deployment affidabili e diffuse come Git per il version control e Jenkins per i processi CI/CD.