Oggi il volume di big data, generati senza sosta da un crescente numero di applicazioni Internet of Things (IoT), commerciali e industriali, continua a espandersi, mettendo a dura prova l’infrastruttura data center: macchinari industriali, sensori di vario tipo, dispositivi medicali indossabili, automobili connesse, producono enormi moli di dati, che in ciascun settore le varie organizzazioni raccolgono, ma poi spesso non sanno come mettere a frutto, per ricavare utili insight.
Al contempo, dirigenti aziendali a vari livelli e IT manager sviluppano sempre più chiaramente la consapevolezza che il futuro del business e la capacità di un’impresa di continuare a competere sul mercato innovando i propri prodotti e servizi, si stanno giocando sulla volontà d’investire nell’infrastruttura data center, per cogliere i vantaggi di potenza dei tool analitici, e l’abilità delle applicazioni d’intelligenza artificiale (AI), machine learning (ML) e deep learning (DL) di estrapolare dai dati, con sempre maggior efficienza e automatismo, informazioni strategiche e di valore. La maggior parte delle imprese, prevede la società di ricerche e consulenza IDC in un white paper del 2018, nei prossimi 12-24 mesi avrà necessità di sviluppare una cultura sull’intelligenza artificiale, per non rischiare di essere superata dai concorrenti sul piano dell’intelligence.
Sfida: realizzare un’infrastruttura data center al passo con i tempi
Nel percorso di evoluzione dell’architettura IT indirizzato a sfruttare il valore di ML e DL, le sfide da affrontare sono molteplici: c’è ad esempio il fatto che, nei prossimi anni, per riuscire a gestire i carichi di lavoro generati da algoritmi di apprendimento automatico e apprendimento approfondito sempre più complessi ed evoluti, i server standard, solitamente basati su macchine con architettura x86, ed esistenti nelle infrastrutture data center convenzionali, non saranno più sufficienti: occorrerà in primo luogo concepire un’infrastruttura data center in grado di scalare nel tempo con facilità sia la capacità computazionale, in rapporto alla domanda dei workload, sia di funzionare come una ‘sandbox’, ossia un sorta di ambiente di collaudo dov’è possibile sperimentare differenti approcci e modelli d’intelligenza artificiale.
In altre parole, l’infrastruttura data center tradizionale deve sapersi trasformare, facendo spazio al nuovo e accomodando un’architettura eterogenea, in grado di ospitare, a seconda delle specifiche necessità aziendali, differenti tipologie di acceleratori hardware, tra cui si possono citare i dispositivi ASIC (Application Specific Integrated Circuit), le GPU (Graphics Processing Unit), gli FPGA (Field Programmable Gate Array), i processori multi-core. Questi device possono infatti permettere di creare combinazioni e configurazioni hardware caratterizzate da capacità elaborativa flessibile e specializzata in rapporto ad ogni particolare carico di lavoro.
Preparare l’infrastruttura per gestire la pipeline di dati
Oltre a individuare le piattaforme software in grado d’integrarsi al meglio con l’infrastruttura hardware sottostante, un punto nodale, ed estremamente critico, riguarda la fase di preparazione dei dati per la successiva elaborazione da parte degli algoritmi di ML e DL. Molto del tempo impiegato per realizzare un processo di deep learning se ne va infatti nelle operazioni di trasformazione e trasferimento dei dati. In aggiunta, occorre dire che, per accrescere l’efficacia delle applicazioni AI, tali dati vengono combinati: essi non provengono solo dagli archivi interni esistenti nell’organizzazione, ma anche da varie fonti esterne, come i contenuti in streaming ricavati dalle interazioni sui social media.
La piattaforma per l’infrastruttura data center indirizzata a gestire l’intelligenza artificiale deve dunque caratterizzarsi come una soluzione completa, in grado di costruire con efficacia ed efficienza questa complessa pipeline di dati, integrando tutte le necessarie risorse a livello di server, storage, software. Capacità di memorizzazione, elaborazione dati, memoria, larghezza di banda (I/O) devono essere adeguati alle moli di dati da gestire, e anche per ciò che riguarda il supporto delle piattaforme software e database (Apache Hadoop, Spark; database RDBMS, NoSQL) la copertura dev’essere completa.