In estrema sintesi, la Data Science viene impiegata per estrarre valore dai dati, trasformarli in un asset economico portante per l’azienda e in un supporto strategico per i decision maker. Il dato, da semplice valore numerico, viene rielaborato attraverso tecniche di analisi, e trasformato in informazione utile al raggiungimento degli obiettivi prefissati ed il disegno di nuovi scenari di business.
L’importanza del dato è presto detta: secondo una recente ricerca di IDC, il 70% dei CEO nel 2020 esprimeva la necessità di poter guidare le proprie organizzazioni tramite i dati. Nel 2021, questa percentuale è cresciuta fino al 83%, con l’87% dei CXO che afferma come l’obiettivo di trasformare la propria azienda in un’impresa data-driven sia la una delle priorità strategiche.
Per comprendere meglio quali benefici la data science possa portare alle aziende ci siamo rivolti a Alberto Ferraiauolo e Edoardo Piccari, entrambi Data Scientist e R&D di TopNetwork, società specializzata in servizi e soluzioni ad alta innovazione tecnologica.
Data science: rielaborare, verificare, ripulire a vantaggio dell’azienda
“Rispetto a una prima fase di gestione che riguarda la selezione e il recupero dei dati, quello che è più rilevante è la fase successiva di elaborazione – afferma Alberto Ferraiuolo, Data Scientist e R&D di TopNetwork. Rispetto al passato, i dati possono arrivare da un numero nettamente superiore di sorgenti (IoT, social network, open data) e tutti possono costituire, una volta trattati, un patrimonio per l’azienda. I dati di per sé infatti sono neutri, finché non subentra la fase di elaborazione. Una volta inseriti nel contesto specifico il dato diventa informazione, asset utile per l’azienda. Il dato non è utile dunque finché l’algoritmo di processing non riesce a esprimere una nuova conoscenza che prima non esisteva e su cui ora si può costruire un nuovo servizio applicativo, quindi un valore per il business.”
È su questa fase di elaborazione che TopNetwork spinge maggiormente anche grazie al know-how insito nell’Innovation Lab, una business unit dedicata e costituita da un team di esperti che sviluppano tecnologie di Intelligenza Artificiale, Robotica e Spazio. Le soluzioni tecnologiche altamente innovative basate su AI permettono di risolvere problemi concreti di difficile risoluzione all’interno della quasi totalità dei settori industriali.
“La data science si occupa non solo della parte di collection del dato – sottolinea Piccari – ma anche della continua verifica delle sorgenti e delle delicate fasi di cleaning, ovvero la pulizia dai missing value. Tutte queste operazioni consentono di esporre il dato anche all’esterno come semi-lavorato, prodotto che può quindi essere “rivenduto” come open data. Un nuovo valore economico per l’azienda. Alla base di una corretta data science ci deve comunque essere una politica di controllo e veridicità del dato, politica garantita da meccanismi di certificazione ufficiali che ne attestino fonti e qualità oppure dall’applicazione di tecnologie che ne affermino la sua inalterabilità e sicurezza come blockchain, tecniche di crypting, algoritmi di hashing.”
Non solo in azienda: la data science al servizio dei cittadini
La corretta gestione del dato è quindi una sfida continua, che può abilitare profondi cambiamenti anche all’interno della nostra società. Ne sono un valido esempio le smart city, città iperconnesse, che vedono un iper-produzione di dati e che spesso non trovano applicazione pratica nel supportare i city manager nel governo cittadino. Secondo una ricerca Cisco del 2019, una smart city con almeno 1 milioni di abitanti, come Milano, è in grado di produrre oltre 180 milioni di GB di dati ogni settimana, un quantitativo difficilmente gestibile senza l’ausilio di tecnologie avanzate.
Ma una smart city è molto più che la semplice disposizione di migliaia sensori IoT all’interno del suo perimetro. Proprio come avviene in ambito aziendale, microcosmo caratterizzato da azioni e reazioni, anche la città vive di modelli comportamentali e correlazioni tra migliaia di azioni pregresse che possono alimentare, se opportunamente addestrate, un modello digital twin. A questo riguardo TopNetwork sta sviluppando con gli esperti del suo Innovation Lab un simulatore in grado di aiutare i decision maker in carico alle amministrazioni cittadine.
“Nel progetto Data Factor – spiega Ferraiuolo – vengono utilizzati fonte dati attendibili, come quelle messe a disposizione dalla Pubblica Amministrazione, i dati ISTAT, ma anche dell’ESA e di altri enti governativi. Può capitare, però, che una fonte open data non sia stata realizzata con troppa cura. Anche in questo caso la data science può essere di aiuto, rilevando all’interno della sorgente quelle informazioni nascoste ma comunque utili, che possono comunque essere estratte. Lo sforzo è quindi valutare, analizzare, eventualmente scartare ciò che non serve, filtrare ciò che può tornare utile confrontandolo con altri dati, misurandone la veridicità attraverso controprove e contro verifiche con altri fonti. Un compito che Intelligenza Artificiale e machine learning possono effettuare su enormi quantitativi di dati, impossibile da gestire manualmente e con continuità. In Italia tutte le amministrazioni forniscono open data e lasciarli senza alcun tentativo di valorizzazione è una cosa che riteniamo dal punto di vista economico e sostenibile non conveniente. Con il progetto Data Factor vogliamo valorizzare questo patrimonio, applicando efficienti modelli di AI.”
“Deep learning e machine learning essi stessi forniscono a loro volta nuovi dati come indici economici, valori spesa, un circolo virtuoso che si autoalimenta – continua Piccari – e che va governato in modo opportuno. I dati possono essere interpretati, per esempio, dal punto di vista ISTAT, inserendo i valori degli immobili, aggiungendo la parte del catasto all’interno del data pack, in un connubio open data e dati privati che permette di completare i modelli di machine learning per l’addestramento del digital twin. Il continuo aggiornamento e controllo della fase di ingestion del progetto Data Factor consente di aggiungere anche informazioni estratte dai canali social collegati alla metropoli, come quelli Twitter, utilizzando in questo caso modelli basati sul Natural Language Processing“.
In conclusione: secondo la visione di TopNetwork la data science aiuta a sviluppare soluzioni in grado di fornire una solida base economica e strategica per qualsiasi tipo di organizzazione, riuscendo a valorizzare anche quei dati che spesso vengono considerati troppo frammentati per divenire utili. Per farlo occorrono però piattaforme evolute, come POLO e A4I di TopNetwork, pensate ad hoc per contesti specifici come quello logistico e industriale, per il campo della sicurezza sul lavoro, ricerca e soccorso e smart city.