Cosa sono gli smart data e qual è la differenza con i big data
Gli smart data sono, letteralmente, i dati “intelligenti”. Ovvero, i dati selezionati, di elevata pertinenza, che contengono le informazioni utili a prendere decisioni in tempo reale.
Gli smart data sono la parte di big data utile all’azienda, perché derivano dal processo di selezione ed elaborazione “su misura” rispetto al raggiungimento degli obiettivi precedentemente stabiliti.
I big data sono chiamati così per le dimensioni dei loro volumi, così estese da richiedere metodi di analisi specifici per estrarne valore in un tempo ragionevole. Oltre al Volume, i big data si caratterizzano per la Velocità di trasmissione, la Varietà delle fonti di provenienza, la Veridicità, ovvero l’affidabilità, e appunto il Valore.
I big data, come tutti i dati, non parlano da soli: il loro Valore si ottiene quando, inseriti in un contesto, diventano informazioni utili. Non tutti i big data sono necessari ad un’impresa: gli smart data sono i big data trasformati in asset aziendale, in grado di sviluppare potenziale economico. Sono dati significativi, di elevata qualità, che forniscono informazioni in profondità rispetto al contesto di riferimento.
Gli smart data sono il frutto di un’analisi strategica, in cui l’argomento, le fonti, l’area geografica e le lingue di interesse sono prima ben perimetrate, poi studiate in relazione ai competitor e ai benchmark di settore per individuare gli scenari attuali e desiderati. Una volta definiti gli obiettivi da raggiungere, vengono delineati i KPI – Key Performance Indicator, gli indicatori chiave di prestazione, in base ai quali vengono selezionati, “puliti” ed elaborati gli smart data.
Ad esempio, nel mondo retail, se l’obiettivo è realizzare offerte personalizzate e geolocalizzate, verranno selezionati dagli acquisti con la fidelity card (big data) gli smart data relativi al luogo, la frequenza e l’orario di acquisto, la tipologia e la quantità dei prodotti acquistati. Oppure, nel settore bancario, da tutte le transazioni effettuate dai clienti (big data) verranno estratti gli smart data utili a individuare le attività fraudolente.
Video – Cosa sono gli smart data? – SailthruTV
In cosa vengono usati i dati smart e come sfruttarli in azienda
I dati smart possono essere usati a supporto di qualsiasi strategia aziendale ben definita: per migliorare la customer experience, identificare nuove aree e tendenze di business, capire su cosa investire e quando, valutare i rischi, aumentare la sicurezza, ottimizzare le prestazioni e i consumi, ridurre i costi e le emissioni, studiare il ciclo di vita di beni e strumenti.
Se gli smart data sono tutti i dati utili a raggiungere un determinato obiettivo strategico, possono avere diverse fonti: la stessa azienda, i suoi partner (dati di seconde parti), altri (dati di terze parti), come gli open data che gli enti pubblici rilasciano per trasparenza o i dati acquistabili dai fornitori privati.
Nel settore delle telecomunicazioni dai volumi di traffico voce vengono usati smart data utili a fare diagnostica delle strutture. Nel retail gli smart data sono utilizzati per aumentare e migliorare le vendite, analizzando il viaggio del cliente, il customer journey, tra i diversi punti di contatto on e offline e personalizzando l’offerta.
Nell’industria manifatturiera gli smart data sono decisivi nel monitoraggio in tempo reale dei processi: dall’ingresso delle materie prime e loro componenti fino al prodotto finito.
Vengono usati nella gestione del magazzino, quindi nell’inventario delle giacenze e nel calcolo dei livelli di fornitura, nella produzione vera e propria, quindi nella valutazione della frequenza dei fermi-macchina e delle interruzioni del ciclo produttivo, nel controllo qualità, quindi nella misurazione dei resi e dei costi di rilavorazione, fino ai tempi di consegna e di preparazione spedizioni.
Gli smart data forniscono le informazioni utili a determinare i costi di produzione di un articolo/servizio, i consumi delle risorse, le condizioni delle macchine. Consentono la manutenzione predittiva, o Condition Based Maintenance, ovvero la manutenzione che, grazie al monitoraggio in tempo reale dello stato delle attrezzature, “predice” quando avverrà il guasto o l’anomalia così da poter intervenire prima che si verifichi.
Gli smart data sono usati anche nel settore comunicazione e marketing: dall’analisi delle conversazioni pubbliche online e dalle menzioni nel tempo al brand e ai competitor, è possibile misurare quanto e come un brand sia conosciuto e apprezzato sul web (Brand Reputation); dalla raccolta dei dati sul coinvolgimento, è possibile elaborare un piano editoriale efficace e mirato (Content Strategy): dall’analisi sulle campagne marketing, è possibile capire e migliorare il proprio posizionamento sul mercato (Competitive Intelligence).
Cos’è e come funziona una smart data platform
Una smart data platform è una piattaforma di gestione degli smart data. Può gestire dataset eterogenei (strutturati e non) e collegare dati aziendali, di seconde e terze parti.
Le smart data platform sono configurabili in base a quali e quanti dataset si decide di utilizzare e alle domande che si intende rivolgere ai dati.
Ogni domanda viene trasformata in Query, ovvero in interrogazione del database, che è chiamato a estrarre i dati che forniscono la risposta. Uno dei protocolli più utilizzati per l’interrogazione è SPARQL – Protocol and RDF Query Language, basato sull’RDF – Resource Description Framework. RDF descrive le relazioni tra concetti con le cosiddette “triple”, ovvero in soggetto-predicato-valore: permette quindi di costruire domande che contengono questi tre elementi, congiunzioni e disgiunzioni logiche, schemi ricorrenti.
RDF è il modello di riferimento del “web semantico”, termine coniato dal co-inventore del World Wide Web, Tim Berners-Lee, per indicare un ambiente digitale in cui ogni documento è associato a informazioni e metadati che ne specificano il contesto semantico in un formato adatto all’elaborazione automatica.
Video – Tim Berners-Lee spiega il web semantico – TED
Com’è stato notato, i metadati, ovvero le “etichette” che classificano e categorizzano i dati, più che specificare il contesto “semantico”, ovvero il significato preciso del termine nel contesto, ad oggi specificano il contesto “metasintattico”, ovvero la funzione ricoperta dal termine nella frase.
Soggetto, predicato, valore: graficamente, per una frase RDF si utilizzano grafi che uniscono i nodi “soggetto” e “valore” tramite un arco che rappresenta il predicato. Per rispondere alle query con il modello RDF si utilizzano quindi database a grafo (Triple Store o RDF Store).
Prima di essere inseriti in un database RDF a grafo, che può essere navigato da algoritmi di machine learning e intelligenza artificiale, i dati considerati smart devono essere “puliti” e trasformati (wrangling), ovvero resi strutturati e convertiti in altri formati.
Una smart platform data comprende gli strumenti di pulizia e un processo di ETL – Extract, Transform and Load, ovvero di estrazione, trasformazione e caricamento dati, che dai “big data” iniziali seleziona solo gli smart data di interesse, li elabora, raggruppa per ampie categorie e infine li carica in un repository.
Il repository più utilizzato in questi casi è un data lake, il “lago di dati” che contiene dati diversi provenienti da fonti eterogenee. Dal data lake, attraverso specifici algoritmi, i dati vengono correlati tra loro (linked data) e ampliati per inferenza (reasoning): ovvero, alle triple già presenti vengono aggiunti i risultati ottenuti con ragionamenti del tipo “se…allora” (sillogismo). Un esempio: se sono presenti due triple come “I Coldplay sono un gruppo musicale” e “Ogni gruppo musicale è un artista della musica”, verrà aggiunta anche la tripla “I Coldplay sono artisti della musica”.
Le operazioni di “Data Linking and Reasoning” sono necessarie per costruire il grafo RDF di risposta alle query. Query formulabili attraverso apposite interfaccia e API.