La scienza dei dati, o data science, interessa sempre più ogni settore della nostra società, non ha caso da molti definita ormai come data-driven. In misura sempre maggiore, infatti, le organizzazioni utilizzano la data science per trasformare i dati in un vantaggio competitivo, ridefinendo prodotti e servizi e prendendo decisioni in modo mirato.
Data science: una definizione
La data science è una estensione evolutiva della statistica combinata con metodi scientifici e tecniche di analisi dei dati, attraverso l’impiego di tecnologie informatiche, con l’obiettivo di estrarre valore dai dati stessi.
Il discorso sulla data science porta inevitabilmente a parlare di un suo specifico e preponderante comparto: quello della Big Data analytics. Dal momento, infatti, che la tecnologia moderna ha consentito la creazione e l’archiviazione di quantità crescenti di informazioni, i volumi di dati sono aumentati rapidamente e la loro crescita è inarrestabile: si stima per esempio che il 90% dei dati a livello mondiale sia stato creato negli ultimi due anni e che nel 2020 ogni persona sulla terra abbia generato 1,7 megabyte di dati ogni secondo.
I moltissimi dati raccolti e archiviati possono offrire, come si è detto, vantaggi competitivi in termini di business, ma solo se, proprio attraverso le tecniche di data science, vengono rilevati i trend e gli insight a supporto di decisioni e sviluppo efficace di prodotti e servizi.
Data science, intelligenza artificiale e machine learning
Il termine data science viene spesso utilizzato come un sinonimo di intelligenza artificiale (AI). Si tratta però di due discipline distinte, anche se interconnesse.
L’AI è una parte dell’informatica che si occupa dello studio e dello sviluppo di algoritmi pensati per far comprendere ad una macchina come eseguire in autonomia uno o più compiti. In particolare, la branca dell’intelligenza artificiale che si occupa dell’apprendimento automatizzato, è chiamata machine learning. Si tratta dell’insieme di meccanismi che permettono ad un sistema intelligente di migliorare le proprie capacità e prestazioni nel tempo: essi sarà cioè in grado di imparare a svolgere determinati compiti migliorando, tramite l’esperienza, le proprie capacità e le proprie risposte e funzioni. Alla base dell’apprendimento automatico, ci sono una serie di differenti algoritmi che, partendo da nozioni primitive, diventano in grado di prendere una specifica decisione invece di un’altra, o di effettuare azioni apprese nel corso del tempo.
L’obiettivo della data science è invece, propriamente, quello di sviluppare strategie e modelli per l’analisi dei dati con il fine di ottenere nuove informazioni, ma è pur vero che data science e AI sono in un certo senso “complementari”. Ad esempio, gli esperti di data science si avvalgono spesso dei metodi di deep learning che sono alla base delle reti neurali utilizzate per eseguire operazioni di pulizia dei dati, classificazioni e previsioni. Le applicazioni basate sull’intelligenza artificiale possono poi sfruttare questi dati puliti ed ottimizzati per apprendere come svolgere i propri compiti in modo più efficiente. L’intelligenza artificiale, infine, permette agli esperti di data science di eseguire operazioni di classificazione e di analisi in modo molto più veloce rispetto ad un essere umano e di ottimizzare e velocizzare i processi di estrapolazione delle informazioni dai dati.
Big Data analytics: la grande sfida della data science
Già nel 2001, i cosiddetti “grandi dati” vennero definiti dall’analista Doug Laney come dati caratterizzati da almeno una di queste tre V: volume, velocità o varietà. Si tratta dunque di enormi volumi di dati eterogenei per fonte e formato, spesso da analizzare in tempo reale.
I progetti di Big Data Analytics possono essere classificati secondo quattro tipologie, in base al livello di maturità delle metodologie utilizzate, e di conseguenza alle informazioni che si è in grado di estrarne:
- Descriptive – cioè le metodologie che descrivono la situazione passata e attuale dei processi aziendali;
- Predictive – si tratta delle tecniche che effettuano l’analisi dei dati per rispondere a domande relative ad eventi futuri. In questo ambito troviamo tecniche come regressione, forecasting, modelli predittivi. È in questo contesto che può entrare in gioco anche il machine learning;
- Precriptive – si tratta di modelli che riescono a ipotizzare una serie di scenari futuri. Alcuni esempi di applicazione si hanno nell’ottimizzazione della supply chain e nella manutenzione predittiva;
- Automated – sono tutti questi strumenti in grado di effettuare autonomamente un’azione sulla base delle analisi di dati effettuate. Esempi sono il dynamic pricing su un sito web o lo smistamento automatico delle pratiche in ambito bancario o assicurativo, con l’obiettivo di identificare le frodi.
Gli Advanced Analytics, infine, comprendono le categorie di Predictive, Prescriptive e Automated Analytics. Lo scopo ultimo di queste metodologie è fornire un più ampio supporto ai decisori aziendali, in taluni casi andando ad automatizzare delle specifiche azioni.
Secondo i dati dell’Osservatorio Big Data & Analytics del Politecnico di Milano, a fine 2019 il 46% delle grandi aziende risultava aver portato avanti almeno una sperimentazione in ambito Advanced Analytics e circa tre aziende su quattro avevano valutato almeno un’idea progettuale.
I vantaggi concreti che la data science offre alle aziende
I casi d’uso di data science sono fra i più svariati. A titolo di esempio, non esaustivo, si può citarne alcuni, come:
- Nella logistica: il miglioramento dell’efficienza di consegna analizzando i modelli di traffico, le condizioni metereologiche ed altri fattori combinatori;
- Nel marketing retail: la determinazione del tasso di abbandono dei clienti analizzando i dati raccolti dai call center, in modo che si possa agire per tentare di fidelizzarli;
- Nell’Industria 4.0: la predisposizione di piani di manutenzione preventiva allo scopo di ridurre i fermi non programmati, ma anche l’ottimizzazione della supply chain e naturalmente il miglioramento del prodotto;
- In medicina: il miglioramento e la maggiore tempestività delle diagnosi dei pazienti analizzando i dati degli esami clinici e i sintomi segnalati, ma anche l’indagine, attraverso lo studio dei dati provenienti dai social media, di eventuali bisogni in tema di salute pubblica, per finire all’ottimizzazione della ricerca farmaceutica e vaccinale;
- Nella finanza: la rilevazione di frodi, riconoscendo comportamenti sospetti e azioni anomale;
- Nella vendita: la possibilità di generare recommendation per vendita di prodotti in logica di up e cross selling
Le fasi del progetto
Il processo di analisi e interpretazione dei dati è più iterativo che lineare, e l’aspetto ciclico è un fattore fondamentale, perché soggetto continuamente a verifica, con la possibilità di tornare indietro per applicare correzioni. In ogni caso, il tipico ciclo di vita di un progetto di data science si può riassumere in cinque fasi, che vanno dalla comprensione del problema alla scelta dei dati più opportuni per risolverlo:
- Business understanding: cioè definire un obiettivo e i risultati potenziali;
- Data collection: questa fase richiede competenza specifica, ma anche strategia e tecnologia opportuna. Innanzi tutto, i dati possono provenire da fonti anche molto eterogenee e possono essere o meno strutturati, inoltre, selezionare in questa fase alcuni dati rispetto ad altri preclude alcune strade sin dal principio;
- Data preparation: in questa fase si valuta se i dati raccolti sono o meno rappresentativi del problema che si vuole risolvere e si implementano tutta una serie di tecniche che vanno dalla gestione dei dati mancanti, alla correzione dei valori scorretti, l’eliminazione dei duplicati, la strutturazione dei dati per l’algoritmo e l’individuazione di caratteristiche specifiche emergenti. Dopo aver preparato i dati, si esegue una prima analisi esplorativa applicando i primi test statistici e le prime tecniche di visualizzazione delle informazioni;
- Data modelling: questa è la fase della scelta e della costruzione del modello da applicare per la risoluzione del problema. Due sono gli aspetti fondamentali: la costruzione del modello e la messa a punto di parametri di controllo e validazione. Il modello viene individuato e attivato dall’algoritmo. Attraverso il machine learning, per esempio, é possibile sviluppare modelli sia descrittivi, che lavorano a livello di raccomandazione, che predittivi, focalizzati sulla previsione di possibili tendenze future: un esempio è quello della regressione lineare per prevedere futuri valori in borsa. Sulla base degli insights ottenuti, si valutano quindi accuratezza e rilevanza del modello, che in generale deve essere tendere alla maggiore semplicità possibile, e si effettuano eventuali calibrazioni necessarie;
- Sviluppo e riattivazione: In questa fase, è necessario confrontare le performance effettive del modello scelto rispetto ai KPI di business fissati all’inizio, anche con il coinvolgimento di coloro che lavorano direttamente sul problema. Risulta inoltre fondamentale la capacità dell’esperto di data science di comunicare con il mondo esterno, vale a dire di rendere comprensibile il progetto e di convincere gli stakeholder coinvolti.
Le figure professionali e la formazione: non solo data scientist
La data science è un settore giovane: il Data science Journal è stato pubblicato per la prima volta nel 2002 dall’International Council for Science Committee on Data for Science and Technology. Dal 2008, anno in cui è comparsa la qualifica di Data Scientist, il settore ha iniziato una rapida ascesa. Tuttavia, nonostante un numero sempre maggiore di università abbia introdotto corsi formativi in data science, vi è sul mercato una costante carenza di Data Scientist, che pure nel 2012 è stato definito il lavoro più “sexy” del XXI secolo.
In realtà questo accade perché il Data Scientist deve possedere una molteplicità di competenze. È infatti un esperto in tecniche matematico-statistiche che sa come utilizzare e programmare software dedicati all’analisi dei dati ed inoltre, dal punto di vista delle soft skill, deve essere una persona curiosa, competente nell’ambito del business dell’azienda per cui lavora e con una gran capacità comunicativa, anche in termini di data visualization e design di dashboard, per riuscire a trasmettere efficacemente gli insight ricavati dai dati a tutti coloro che sono coinvolti nel business.
Un data scientist si occupa nello specifico di sviluppare strategie per l’analisi dei dati, preparare i dati per l’analisi, esplorarli, analizzarli e visualizzarli, creare modelli impiegando linguaggi di programmazione quali Python e R, nonché implementare i modelli nelle applicazioni.
Il data scientist non lavora da solo: i team di data science possono includere anche un analista aziendale che definisce il problema, un ingegnere informatico che prepara i dati e definisce le modalità di accesso, un architetto IT che supervisiona i processi e l’infrastruttura sottostanti ed uno sviluppatore di applicazioni che implementa i modelli o i risultati dell’analisi in applicazioni e prodotti.
In particolare, il data engineer rende i dati disponibili per le analisi integrando fonti eterogenee e flussi in streaming, focalizzandosi sulla capacità di gestire database relazionali e non, sulla conoscenza di tecnologie Big Data (come Hadoop o Spark) o di stream processing (es. Kafka) e più in generale sulla costruzione e manutenzione dell’architettura che rende i dati disponibili per le analisi.
Al data analyst, invece, è richiesto di svolgere analisi tendenzialmente descrittive o esplorative, meno complesse rispetto a quelle svolte dal data scientist, e di assumere il ruolo di collegamento tra gli analisti e le figure di business, rispondendo alle richieste di queste ultime. Il data analyst ha competenze basilari di matematica, statistica e di funzionamento dei database, generalmente utilizza strumenti tradizionali, come Microsoft Excel, in certi casi conosce almeno SQL e si occupa principalmente di attività di reporting e di data visualization.
Nell’ultimo anno, ha rilevato sempre il già citato Osservatorio del Politecnico di Milano, si è inoltre assistito ad una progressiva sensibilizzazione degli utenti di business verso un utilizzo più massivo e consapevole dei dati, attraverso la nascita della figura dell’analytics translator, come ulteriore figura intermedia tra le linee di business e il team di data science. Da un lato, l’analytics translator è in grado di comprendere i requisiti di business e di riformularli in termini analitici, dall’altro, è in grado di interpretare i risultati delle analisi svolte. Il 30% delle grandi aziende, sul campione delle 137 analizzate, risulta aver già inserito in organico o formato almeno una figura di questo tipo.
Figura 1: le professioni della data science e la loro diffusione negli anni
Video: Osservatori Digital innovation del Politecnico di Milano
L’impatto della data science nell’anno della pandemia
Seconda la ricerca 2020 dell’Osservatorio Big Data & Analytics del Politecnico di Milano, dopo diversi anni di crescita a doppia cifra, il mercato degli analytics in Italia nel 2020 è cresciuto solo del 6%, raggiungendo gli 1,8 miliardi di euro.
Con l’emergenza pandemica, la “fame di dati” è tuttavia in generale aumentata: le aziende con competenze interne e buona governance dei dati hanno saputo reagire in maniera più efficace in termini di resilienza e infatti, pur in un anno, come si è detto, di relativo rallentamento, ben il 96% delle grandi aziende ha svolto o prevede di svolgere almeno un’attività di valorizzazione del proprio patrimonio informativo. In questo contesto, emerge ancora una volta come prioritario il tema della qualità dei dati.
L’emergenza ha posto maggiore attenzione alla realizzazione di viste di dettaglio, in grado di monitorare, auspicabilmente in tempo reale, le incertezze della situazione, inoltre sono stati ripensati i modelli predittivi e di ottimizzazione, in quanto, a fronte di un cambiamento di così vasta portata delle condizioni al contorno, non garantivano più le prestazioni disponibili in precedenza. Infine, l’analisi dei dati si è rivelata fondamentale in ottica di riduzione dei costi.
In definitiva, l’intero ambito degli analytics, nonostante il rallentamento globale, esce rafforzato dall’emergenza: il contesto, reso ancora più competitivo dalla crisi sanitaria, rende infatti oggi più che mai necessario basare le decisioni strategiche su dati di buona qualità analizzati in modo corretto.