L’abilità di acquisire i dati, comprenderli, elaborarli ed estrarre valore da essi, visualizzarli e comunicarli, diventerà una capacità estremamente importante nei prossimi decenni: lo affermava, già nel 2008, in un articolo pubblicato dalla società internazionale di consulenza manageriale McKinsey & Company, Hal Ronald Varian, economista e professore emerito nella School of Information all’Università della California, Berkeley, riferendosi al fatto che i dati, oggi, sono reperibili in grande quantità attraverso varie fonti, ma è spesso difficile analizzarli con efficacia per ricavarne un reale beneficio. Tema centrale è quello dell’integrazione e dell’interoperabilità.
Data science, più abbordabile per le aziende
La data science è la disciplina che studia le fonti informative, ed è lo strumento che aiuta a trasformare i dati in risorse per la creazione di business. Alle sue origini era relegata in laboratori e dipendeva dai supercomputer: oggi, con l’incremento di potenza dei computer e la diffusione del cloud, può uscire da quei laboratori ed entrare nelle imprese, per elaborare e analizzare enormi moli di dati strutturati e non strutturati in crescita esponenziale (big data), avvalendosi delle tecnologie e metodologie di intelligenza artificiale (AI) e machine learning (ML).
Anche i data scientist, i professionisti del settore, stanno evolvendosi, e integrando le tradizionali competenze di analisi delle grandi moli di dati, che tipicamente includono conoscenze di matematica, statistica, data warehousing, data mining, data modeling, programmazione, con la capacità di sfruttare AI e ML come moderni paradigmi di automazione delle attività di elaborazione e analisi: paradigmi fortemente orientati al rapido ottenimento di insight utili a identificare rischi e opportunità di business, e a migliorare i processi decisionali.
Molteplici sfide per i data scientist
Storicamente, l’uso della data science a livello enterprise ha sempre creato non poche difficoltà, e costretto i team di data scientist a lottare con la complessità tecnica e organizzativa dell’infrastruttura IT necessaria per riuscire a fornire, nel rispetto delle tempistiche, informazioni di valore ai manager dell’organizzazione. La capacità di tali team di produrre, con la propria attività di intelligence, un impatto positivo sul business può talvolta essere limitata dalla scarsità di competenze di data science, o ostacolata dall’impossibilità di scalare in maniera semplice e rapida il modello di machine learning, costruito nella fase di sviluppo e test, all’interno dell’ambiente di produzione.
I data scientist hanno il gravoso compito di presidiare e controllare l’intero ciclo di vita dei dati (acquisizione, manutenzione, elaborazione, analisi, comunicazione), e d’integrare e consolidare, all’insegna della interoperabilità, in un’unica pipeline svariate fonti informative, che tendono a trovarsi isolate nei silos IT dei singoli dipartimenti e business unit aziendali, oppure provengono da streaming di dati generati in tempo reale da sensori, dispositivi IoT, forum online, social media, o da altri svariati touch point e canali d’interazione.
Il significato dell’interoperabilità semantica e tecnica per i dati
Per esprimere il massimo potenziale di analisi, gli strumenti e gli algoritmi di AI e ML devono poter integrare e combinare tutte le fonti di dati, interne ed esterne: i dati devono essere resi interoperabili, non solo a livello tecnico (struttura, formato), ma anche semantico, per poi creare un modello che aiuti a identificare schemi e anomalie: ad esempio, un cambiamento nel comportamento d’acquisto dei clienti, utile a orientare una strategia di business per migliorare un prodotto o un servizio. Inoltre, affinché il progetto di data science possa produrre un impatto positivo sul business, non può mancare una stretta collaborazione tra team di data science, executive, manager delle LOB (line of business). Quando infatti la data science porta alla luce nuove fonti di dati, i responsabili del business devono poterle prontamente utilizzare, identificando schemi e trend di mercato non ancora evidenziati, e sperimentando ulteriori strategie imprenditoriali.
Piattaforme di data science, alcune funzionalità chiave necessarie oltre alla garanzia di interoperabilità
Soprattutto dal punto di vista tecnologico, oltre alla difficoltà di creare integrazione, standardizzazione e interoperabilità tra le disparate fonti di dati, esiste anche il problema d’implementare una piattaforma di data science in grado d’integrare e supportare al meglio l’ampio ventaglio di strumenti software adottati dagli specialisti di questa disciplina, che tipicamente possiedono competenze molto differenti. Si va dall’utilizzo di linguaggi di programmazione e ambienti IDE (integrated development environment) per l’analisi statistica come R e RStudio, al linguaggio Python per la data science; ai tool tradizionali di business intelligence; ai framework di ML e deep learning (DL) come TensorFlow, Caffe, PyTorch, Keras, Gluon; ai motori e framework per il calcolo distribuito Apache Spark, Apache Hadoop, MapReduce; ai tool di visualizzazione e rappresentazione grafica dei dati come Tableau.
In aggiunta, oltre a integrare tutta la gamma di tool che servono ai team di data scientist per costruire il modello di ML, una piattaforma di data science di fascia enterprise, che ha l’obiettivo di rendere velocemente fruibili risultati e insight per raggiungere obiettivi di business, non può semplicemente limitarsi a consentire la costruzione del modello stesso in un ambiente di test isolato. Il modello deve poter essere salvato, integrato e rilasciato anche in produzione, tramite API (application programming interface) e codice che sviluppatori e deployment manager possono usare per implementare e rendere fruibile l’applicazione di data science a livello aziendale. L’integrazione di funzionalità di monitoraggio delle performance del modello sviluppato, e di alert automatici, aiuta poi i data scientist ad accorgersi quando è tempo di riaddestrarlo o ricostruirlo.
Altra caratteristica da non sottovalutare, per assicurare la massima possibilità di scelta, è la flessibilità e interoperabilità della piattaforma di data science in rapporto alle differenti opportunità e scenari di training e implementazione dei modelli di ML negli ambienti multi cloud e nei cloud ibridi. Ad, esempio, per ragioni di sicurezza e privacy, si può avere l’esigenza di eseguire on-premise, e in ambiente IT protetto, il training del modello con dati sensibili; ma poi si può anche avere la necessità di eseguirne il deployment sul cloud pubblico, per renderlo fruibile dalle applicazioni sviluppate in tale ambiente.
Per approfondire le tematiche trattate in questo articolo vai al media hub DATA SCIENCE & MACHINE LEARNING