In bilico tra chi lo definisce una meteora e chi un punto di svolta nell’approccio ai dati, il data mesh continua ad essere un tema “caldo”. Durante l’ultima edizione del Big Data LDN, che si svolge nel Regno Unito, si è imposto come argomento di tendenza catturando, di fatto, l’attenzione di esperti ed analisti. Il data mesh è riconosciuto come un paradigma (socio tecnologico) decentralizzato per condividere e gestire i dati analitici favorendo agilità e flessibilità. In particolare, va a identificarsi con un cambiamento profondo che coinvolge ogni azienda in più aspetti.
Come nasce il data mesh
Il concetto di data mesh è stato definito, per la prima volta, nel 2019 da Zhamak Dehghani, quando era consulente di ThoughtWorks. Zhamak scriveva un articolo (How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh) oggi divenuto un libro, in cui affermava la necessità di gestire i dati analitici basandosi su un’architettura distribuita. Ciò che Zhamak chiedeva e continua a chiedere, con la sua definizione di data mesh, è un’apertura alla possibilità di superare data lake centralizzati permettendo di accedere e interrogare i dati dove risiedono.
Un approccio che prende in prestito la teoria della progettazione del software basata sul dominio di Eric Evans (Domain-Driven Design), riportandolo ai dati. Evans, anticipando i tempi, ha influenzato l’architettura dei microservizi, scomponendo i sistemi in servizi distribuiti basati sulle funzionalità del dominio aziendale.
Allo stesso modo, l’approccio data mesh vuole invertire il modo di pensare ai dati, la loro posizione e non ultima, la loro proprietà. Applica il concetto di piattaforma per creare un’infrastruttura di dati self-service abbracciando la necessità di affidarsi a team distribuiti responsabili dei dati e del loro utilizzo.
Un paradigma nato per cambiare comportamento
L’introduzione di un approccio all’analisi decentralizzato, come detto, si contrappone alle strutture monolitiche e ai modelli di data warehouse. Spinge, al contrario, verso le architetture dati distribuite. Ma, soprattutto, cambia il modo di gestire i dati, non tanto dal punto di vista tecnologico (molti degli strumenti che utilizziamo oggi possono ospitare la distribuzione e la proprietà di più team) ma piuttosto dal punto di vista organizzativo.
“Parliamo di un approccio nuovo e basato su principi che una volta accettati non sono sempre semplici da implementare” spiega Enrico Piccinin Principal di ThoughtWorks Italia e poi continua: “Il punto è che il data mesh non è un prodotto, ma piuttosto un modello organizzativo che spinge verso un cambiamento organizzativo”.
Un’inversione di modello, come scrive Zhamak Dehghani, che mette in secondo piano gli strumenti e la pipeline di data lake (definito un errore da non ripetere) a favore di un ecosistema di data products che funzionano bene insieme, come una rete di dati interoperabili.
L’architettura data mesh promette di ridurre i colli di bottiglia operativi dovuti proprio dall’eccessiva centralità della base dati, facilitando l’uso di applicazioni self-service con l’obiettivo di semplificare il lavoro di tutti. La distribuzione della proprietà del dato si avvicina molto alla democratizzazione dello stesso dato.
Perché è importante garantire la qualità del dato
Affinché il paradigma data mesh possa avere successo, l’organizzazione deve garantire dati completi, accurati e in definitiva, affidabili. La qualità dei dati, la provenienza dei dati e le architetture di sistema sono determinanti per una corretta implementazione, così, come è basilare evitare la frammentazione, la duplicazione dei dati e le incongruenze. Con un sistema decentralizzato, è indispensabile che la qualità dei dati di proprietà dei diversi team sia coerente e non in contraddizione con altri dati.
“Il data mesh è il primo passo per gestire il ciclo di vita del dato” afferma Alessandro Confetti, Technical Principal di Thoughtworks Italia. Un approccio data domain non basta se non è accompagnato da un adeguato grado di integrazione e interoperabilità tra gli stessi domini e tra i team, il rischio altrimenti è quello di scomporre i dati in silos.
Per una gestione davvero efficace, al paradigma data mesh vanno sommati, principi, regole, linee guida, strumenti e processi a partire dalla definizione dei ruoli, e naturalmente, un cambio di mentalità da parte delle organizzazioni.
Il data mesh va bene per tutti?
Circa l’80% dei dati in possesso delle organizzazioni non viene valorizzato. Partendo da questo dato, Enrico Piccinin afferma: “La vera sfida è avvicinare i dati a chi ne ha maggiormente bisogno ed è in grado di utilizzarli e convertirli in valore”.
Il cambiamento sta proprio nel modo in cui le aziende si dedicano ai dati e alle differenti finalità di utilizzo (interno o verso l’esterno, o anche legate a tecnologie di intelligenza artificiale e machine learning). Gli ostacoli possono essere superati anche attraverso una leadership in grado di riportare la responsabilità del dato all’interno dei domini.
“ITV, l’emittente televisiva britannica è un esempio chiaro di come il data mesh sia in grado di aumentare il valore aziendale” continua Alessandro Confetti. “Il team di marketing è riuscito a ottimizzare la propria strategia per identificare, con informazioni accurate, il pubblico a cui rivolgere i servizi e le promozioni riducendo i tempi, da tre mesi a pochi minuti rispetto all’approccio adottato in precedenza. Il risultato è stata la riduzione delle attività manuali e una migliore collaborazione e trasparenza”.
La prospettiva
Nonostante il data mesh in molti desti il timore che possa essere una sorta di antifrasi alla centralizzazione, non si può prescindere dalla modernità dei suoi fondamenti insieme alla capacità di estrarre valore dai dati. Come conseguenza, naturalmente, di un approccio decentralizzato legato ad una gestione e governance del dato matura e concreta. Ecco perché è utile guardare in prospettiva, osservare come evolverà e allo stesso tempo, capire, fin da subito, in che misura può essere utile alla propria organizzazione.