Tech InDepth

AI e ML: la data science si fa con infrastrutture e governance

Intelligenza artificiale e machine learning spingono al limite le capacità dell’IT, sia in termini di potenza di calcolo, storage e risorse hardware, sia di abilità di gestione e controllo dell’estrema eterogeneità dei dati: un ambito in cui, osserva la società di ricerche Gartner, all’esigenza degli utenti, di costruire, implementare e gestire nel tempo i modelli analitici, corrisponde un’offerta tecnologica in rapida evoluzione, indirizzata verso la fornitura di piattaforme di data science integrate e complete

Pubblicato il 18 Dic 2019

Giorgio Fusari

Ormai è certo che la data science guiderà sempre più le strategie di business, ma i dati indicano anche che c’è ancora molto lavoro da fare negli ambienti IT. Le sfide di trasformazione sono organizzative e tecnologiche: queste ultime si giocano sia a livello di infrastrutture hardware dei data center, sia sul piano della governance dei dati a livello software. Saperle vincere potrà permettere di realizzare progetti migliori, più capaci di sfruttare appieno la potenza di intelligenza artificiale (AI) e machine learning (ML).

Due componenti che un numero crescente di iniziative imprenditoriali cerca di padroneggiare, con l’obiettivo di migrare verso il paradigma ‘data-driven’, e generare ‘insights’ utili a potenziare la competitività dell’organizzazione.

Indice degli argomenti

Insufficienza infrastrutturale

Da punto di vista delle infrastrutture IT, gli emergenti strumenti di data science, AI e ML appunto, stanno spingendo al massimo le capacità dell’hardware, e progressivamente esplicitando, nei data center, l’inadeguatezza delle attuali infrastrutture server, messe sempre più in crisi dall’esigenza, di responsabili dei sistemi informativi, manager delle LOB (line of business), data scientist, di gestire in azienda applicazioni di analisi dei dati che richiedono crescenti prestazioni computazionali.

Le applicazioni AI, spiega la società di ricerche di mercato IDC in un white paper, e in particolare i sistemi di deep learning (DL), che analizzano quantità di dati molto grandi, necessitano di un’elevata capacità di calcolo, e di potenti funzionalità di elaborazione parallela. In sostanza, i limiti delle CPU standard nell’eseguire con sufficienti prestazioni e scalabilità le applicazioni di data science che integrano AI e ML stanno diventando sempre più evidenti. In base ai sondaggi di IDC, tra coloro che hanno attivato applicazioni AI sulla propria infrastruttura on-premise già esistente, il 77,1% riporta di aver incontrato uno o più problemi: difficoltà di gestione, scalabilità, limiti di prestazioni, impossibilità di rispettare gli SLA (service level agreement), storage insufficiente, difficoltà di diagnosticare i problemi, difficoltà di virtualizzazione dei server, lacune di interoperabilità nel data center, elevato utilizzo di energia, limitazioni di memoria.

Survey 2 — **On prem infrastructure limitations.** *Fonte: IDC*

In generale, conclude IDC, nelle organizzazioni regna ancora parecchia confusione, perché le imprese sono ancora incerte su diversi punti: ad esempio, su quali casi d’uso della AI possano portare loro dei benefici; quale insieme di competenze servano per trasferire in-house le funzionalità di AI; quale software debba essere sviluppato per tali applicazioni; quali tipi di infrastrutture e modello di deployment (on-premise, cloud) sia più conveniente adottare; quali tecnologie di accelerazione dei workload scegliere per superare le limitazioni delle infrastrutture server convenzionali. Un campo, quest’ultimo, dove gli acceleratori utilizzabili sono caratterizzati da architetture hardware eterogenee, tra cui, ad esempio, dispositivi GPU (graphics processing unit), FPGA (field-programmable gate array), ASIC (application-specific integrated circuit), processori many-core.

Dominare il caos dei dati è ancora difficile

L’altro spinoso problema riguarda la governance dei dati: secondo rilevazioni della società di ricerche Gartner, nel 2016, il 69% dei dirigenti marketing si aspettava che gran parte delle proprie decisioni sarebbe stata guidata dai dati entro il 2018. Ma sondaggi su oltre 500 organizzazioni, nell’ambito della Marketing Analytics Survey 2018, mettono in luce che, nonostante le dimensioni medie dei team del reparto ‘data analytics’ siano cresciute, da un paio di persone di qualche anno fa, agli attuali 45 addetti a tempo pieno, i progressi sono ancora minimi, e i risultati stentano ad arrivare.

Infatti, quando si chiede su quali attività gli analisti di marketing passino la maggior parte del proprio tempo, il “data wrangling”, ossia la preparazione e trasformazione dei caotici dati grezzi, è in cima alla lista, assieme a integrazione e formattazione dei dati. Ciò significa sottoutilizzare i talenti professionali nelle tecniche analitiche e disallinearli rispetto all’obiettivo di estrarre insight capaci di creare valore per il business. Non a caso, circa la metà dei dirigenti interpellati (48%) riporta che alcuni dei propri analisti più costosi ed esperti impiegano il loro tempo a preparare i dati da analizzare anziché analizzarli. Ancora, quando si domanda quali attività i data scientist o lo staff di analisi avanzata operanti nell’organizzazione abbiano svolto per il team addetto alle analisi di marketing, più del 45% risponde che i propri data scientist eseguono attività di base, come la visualizzazione o la preparazione dei dati per l’analisi.

graphic Marketing Analytics Survey 2018 — **Gartner marketing analytics survey 2018.** *Fonte: Gartner*

Piattaforme di data science coesive per supportare AI e ML

Le piattaforme di data science sono la risposta alle esigenze di business appena tratteggiate. Gartner le definisce applicazioni software coesive, capaci cioè di fornire i mattoni base essenziali, per la creazione di tutti le tipologie di soluzione di data science, e per incorporarle nei processi di business, nell’infrastruttura e nei prodotti esistenti.

Un’applicazione non coesiva, secondo la definizione di Gartner, per lo più usa o aggrega vari pacchetti e librerie, e non è considerabile una piattaforma di data science e ML. Quest’ultima, invece, dev’essere in grado di supportare, lungo tutto il ciclo di vita dei dati nella pipeline analitica, svariati tipi di utenti: non solo sviluppatori dell’applicazione e data scientist, ma anche i ‘citizen data scientists’, ossia coloro che non possiedono le approfondite competenze statistiche e analitiche dei data scientist esperti, ma hanno capacità uniche per contribuire a mitigare l’attuale ‘skills gap’ del settore.

graphic What Does a CDS Look Like — **What Does a CDS Look Like.** *Fonte: Gartner*

Infine, aggiunge Gartner, oltre a integrarsi nei processi di business dell’azienda e a supportare la costruzione dei modelli analitici, le piattaforme di data science devono anche consentire di monitorarli, gestirli, aggiornarli, per mantenerli pertinenti nel tempo e allineati agli obiettivi di business.