Quanto più le aziende dei più diversi settori iniziano a sfruttare le applicazioni dell’Industrial Internet of Things (IIoT), tanto più si pongono domande su come e dove elaborare e archiviare al meglio le grandi quantità di dati generati, scegliendo tra le opzioni possibili: edge computing industriali, grandi data center locali aziendali, colocation, data center cloud.
Si tratta di domande molto rilevanti, se si considerano le dimensioni e la portata degli investimenti effettuati nelle applicazioni IIoT. McKinsey & Company stima che le aziende spenderanno tra i 175 e i 215 miliardi di dollari per l’hardware IIoT entro il 2025, includendo in questo l’hardware di calcolo, i sensori, il firmware e lo storage.
Gartner, invece, prevede che il 75% dei dati generati dalle imprese sarà memorizzato, elaborato, analizzato e “agito” a livello edge entro il 2025: un numero grande, che lascia pur sempre però ancora un 25% di dati da elaborare altrove. Il che riporta alla questione di come decidere dove sia meglio memorizzare, elaborare e analizzare tutti quei dati IIoT. Per rispondere alla domanda, è necessario esplorare quattro fattori sui dati in questione, le quattro V: volume, varietà, valore e veridicità. Ecco come ognuno di esse va considerato per guidare le decisioni in merito.
I dati generati dall’IIoT: le quattro V
Volume: quanti dati vengono generati
La quantità di dati generati è il primo fattore da considerare. Gli ambienti IIoT generano grandi quantità di diversi flussi di dati con volumi molto diversi. Cose semplici come i livelli di temperatura, pressione, tempo e volume producono quantità relativamente piccole di dati; questo è particolarmente vero se vengono misurati solo occasionalmente, invece che costantemente.
D’altra parte, una telecamera ad alta velocità e ad alta risoluzione che monitora un processo in un impianto di produzione per rilevare colli di bottiglia o difetti può generare gigabyte di dati ogni secondo. Chiaramente questo avrà requisiti di rete, calcolo e archiviazione molto diversi rispetto alle misurazioni di dati ambientali.
Varietà: diversi tipi di dati
Come è emerso parlando di volume, le applicazioni IIoT coinvolgono molte varietà diverse di dati. Non tutti i dati dei sensori, per esempio, sono del tipo” a basso volume” associato, per esempio, alla temperatura. Anche un sensore che misura i livelli di un liquido può differire drasticamente da un’applicazione all’altra. Un sensore che misura il livello del liquido in un grande serbatoio può campionare solo ogni 10 secondi o meno, mentre uno che misura i livelli delle siringhe per una società farmaceutica testerà molto più spesso.
Allo stesso modo, le videocamere possono variare drasticamente l’una dall’altra. Le videocamere per l’analisi di processo possono lavorare a 10mila fotogrammi al secondo, mentre l’HDTV che guardiamo a casa è di 30 fotogrammi al secondo. Quindi, i tipi di dati possono variare considerevolmente a seconda delle applicazioni pertinenti.
Valore: rilevanza e per quanto tempo è necessario conservare i dati
Il valore si definisce determinando quali dati è necessario conservare e per quanto tempo. Se misuriamo la temperatura come parte di un processo di produzione, quei dati hanno un valore dopo che il processo è stato completato? C’è una ragione per cui è necessario conservarli oltre oggi, domani o l’anno prossimo?
Per fare un esempio, pensiamo a un processo di saldatura automatizzato, che coinvolga una videocamera che cattura immagini in tempo reale, una sonda per ascoltare il suono emesso nel processo di saldatura, insieme a sensori di temperatura e umidità. I dati risultanti sono tutti inviati a un computer che li analizza e li regola di conseguenza per ottenere la saldatura ottimale. Ma una volta che la saldatura è completa e passa il controllo di qualità, si ha ancora bisogno di tutti i dati che sono stati utilizzati per ottenere la saldatura ottimale? Probabilmente no.
Tuttavia, per motivi di conformità, in alcuni paesi i produttori di automobili devono documentare ogni saldatura che fanno e mantenere le informazioni per decenni, nel caso “lungo la strada” – scusate il gioco di parole – si verifichi un problema e sia necessario rintracciarla. Quindi, hanno bisogno di conservare alcuni dati su ogni saldatura, ma forse non tutti. Naturalmente, i requisiti di conservazione dei dati variano a seconda del settore, ma è importante identificare e conservare questi dati per la gestione del rischio e la conformità normativa.
Veridicità: arrivare alla verità
La qualità finale da considerare è la veridicità dei dati, ovvero se i dati sono accurati. Nella maggior parte dei flussi “big data” è probabile che una certa quantità di dati rappresenti valori anomali o imprecisioni.
Per esempio, si pensi a un processo di produzione che misura il diametro di un oggetto, per esempio una lattina. Ci sarà sempre una vibrazione nel processo che crea rumore, quindi si finiranno per creare dati che rappresentano effettivamente rumore casuale, non ciò che si sta realmente cercando di misurare. Non c’è motivo di conservare quei dati, quindi c’è bisogno di parametri per verificare la qualità dei dati ed estrarre quelli che non sono rilevanti. Questo molto probabilmente è fatto a livello edge, localmente, prima che i set di dati più grandi vengano spediti altrove per un’ulteriore elaborazione.
Conclusioni
Se si applicano le “quattro V” a una data applicazione IIoT si dovrebbe formare un quadro chiaro per capire dove i dati risultanti devono essere elaborati, memorizzati, protetti e come meglio trasportarli.
Il processo di saldatura automatizzato, per esempio, avviene in tempo reale. Per fare le regolazioni di controllo necessarie, l’applicazione richiede una bassa latenza. Non c’è abbastanza tempo per spedire i dati a qualche piattaforma cloud per l’analisi. L’analisi dovrà essere fatta localmente, per esempio, in un’applicazione industrial edge. Invece, per i dati che le case automobilistiche hanno bisogno di salvare a lungo termine, probabilmente è meglio scegliere di inviarli in un data center regionale, o in una struttura basata su cloud.
Oltre ai requisiti di latenza, anche il costo della larghezza di banda può essere un fattore da considerare. Più dati devono essere inviati, maggiore deve essere la disponibilità di larghezza di banda. E più grande è il “tubo” necessario, maggiore è l’investimento in capacità di rete e infrastrutture.
A volte il volume dei dati imporrà di gestirli inizialmente a livello locale, per poi pianificare l’invio di un sottoinsieme di quei dati a una struttura regionale o cloud per un’ulteriore elaborazione. Un esempio potrebbe essere un’applicazione di automazione di processo in cui i dati necessari per eseguire effettivamente il processo vengono elaborati localmente, mentre i dati sul processo – tempo necessario, risultati del controllo qualità, salute delle macchine – vengono inviati a un’applicazione di analytics basata sul cloud per ottimizzare il processo e monitorare la salute delle macchine coinvolte.
A seconda del caso d’uso effettivo e delle considerazioni di cui sopra, l’implementazione di un’architettura di dati ibrida in questo caso sembra avere più senso.
Trovare il giusto equilibrio tra edge computing industriale, data center aziendali più grandi o in colocation, data center cloud può essere complesso, e scelte sbagliate possono generare costi aggiuntivi. Anche nel mondo industriale, oggi, diventa quindi estremamente importante saper fare un’analisi accurata delle proprie esigenze IT che non lasci nulla al caso e al contempo sia gestibile con flessibilità e scalabilità. Anche questo è un segnale di come il mondo dell’industria stia entrando in un futuro sempre più a trazione – e a valore – digitale.