L’informatizzazione è virale e i Big Data crescono ovunque. Tra i problemi che assillanno gli storage manager non ci sono solo le questioni legate all’archiviazione e alla sicurezza di queste informazioni ma sempre più spesso la definizione dei criteri di analisi che consentono di elaborare velocemente i dati per metterli a disposizione quando servono e ogni volta che servono davvero.
Negli ultimi tempi sono nate diverse piattaforma di gestione dei Big Data come Hadoop, NoSQL o i database non relazionali su architetture di servizio compartimentate.
Si tratta di soluzioni che comunque impattano su una governance che per anni è stata tradizionalmente incentrata sul consolidamento e la concentrazione dei dati sul minor numero di silos possibile mentre agli end user è stato detto di salvare qualsiasi tipo di informazione sul server, per garantire il back up e la gestione più appropriata.
I sistemi RAID sono stati ottimizzati per assicurare massime performance e disponibilità su più sistemi di condivisione degli storage. Ma le cose stanno cambiando.
I criteri di funzionamento di Hadoop
Con l’arrivo del framework Hadoop l’analisi distribuita di grandi insiemi di dati avviene attraverso un semplice modello di programmazione. Hadoop ha un’architettura, realizzata in Java, che consente di scalare da pochi server fino a migliaia di sistemi: ogni server, chiamato nodo, contribuisce con le proprie risorse di calcolo e la propria capacità di memorizzare i dati.
In pratica, aggiungendo server è possibile far crescere un sistema Hadoop in modo quasi lineare potendo controllare i costi complessivi della soluzione e allo stesso tempo di beneficiare della crescita in termini computazionali di un’architettura costituita su un modello di storage localizzato. Questo nuovo paradigma viene chiamato RAS e sta per Reliability, Availability and Serviceability.
Big Data, ma anche “big problem” di archiviazione
Ma vediamo in dettaglio gli antefatti. Da quando le aziende hanno iniziato ad affrontare la crescita ormai esponenziale dei dati, la scelta di dedicare un ambiente separato e specifico per i progetti associati, seguendo l’infrastruttura di riferimento suggerita dai vendor è stata indubbiamente una scelta sensata.
Nel caso di Hadoop il modello si traduce nella messa a sistema di una serie di nodi distribuiti, ognuno basato su uno storage locale che fa parte di un’unica LAN.
I vantaggi di questa strategia sono appunto la definizione di un’area circoscritta rispetto agli ambienti di produzione. Tuttavia questo tipo di scelta non è il massimo per due motivi: la deduplicazione dei dati associata e tutta una serie di movimentazione dei dati risultati dall’estrazione, trasformazione e caricamento dei processi nota come ETL (Extract, Transform, Load). Il tema è significativo anche perché l’infrastruttura a supporto dei Big Data rimane distinta dal resto dell’azienda le applicazioni tradizionali di gestione dei dati non sono in grado di supportare, ottimizzare e amministrare questo tpo di infrastruttura.
Il “nirvana” dello storage
Idealmente dati e Big Data dovrebbero essere omologati per tutti i tipi di piattaforme, dall’OLTP all’OLAP, con una progettazione ottimizzata per garantire performance, capacità, efficienza, accessibilità e disponibilità.
Questo nirvana dello storage è possibile se i responsabili accolgono i Big Data nei loro data center con la consapevolezza e la competenza adeguate, il che significa con le giuste vision in merito all’infrastruttura necessaria.
Il modo migliore al momento è implementare una soluzione HDFS Hadoop Distributed File System inaugurando un nuovo modello di accesso ai dati.
Attualmente pochi sistemi storage sono atti a supportare l’HDFS se non forse gli array di storage EMC Isilon e HP Vertica Connector for Hadoop. Un’alternativa può essere scegliere una gestione dei Big Data attraverso protocolli di storage enterprise come, ad esempio, NFS (NetApp FlexPod Select) che supporta in maniera nativa la tecnologia distribuita MapR di Hadoop.
Infine gli storage manager dovranno trasformare i loro sistemi di archiviazione in architetture di storage basate su oggetti. HDFS, in quanto porzione di uno storage, è un file system con un livello di data management che consente di creare un ambiente completo di storage ad oggetti indirizzabili.
Moltissimi vendor di software offrono gateway che consentono l’integrazione HDFS con gli storage di rete. In futuro saranno sempre di più le aziende che abbandoneranno i sistemi compatibili POSIX per sostituirle con dispositivi storgae basati su HDFS.
Il sistema proposto da EMC Isilon, ad esempio, è un’architettura scalabile che può gestire i sistemi di storage attuali e le soluzioni di data center management con Vmware vCenter, permettendo performance ottimizzate per la distribuzione di I/O attraverso nodi di controllo multipli.
Al contempo consente ai dati di rimanere dove sono quando non devono essere processati per una richiesta di analisi.
I dati generati da dispositivi mobili, desktop o laptop possono essere trascritti utilizzando un’interfaccia SMB. Questi tipo di dati possono poi essere raccolti e distribuiti tramite alcune applicazioni mission-critical su NFS, e quindi gli stessi dati (con l’interfaccia HDFS) possono essere parte del framework Hadoop, senza dover mai essere estratti, trasformati o caricati da un sistema all’altro.
Questo tipo di approccio ha alcuni vantaggi molto interessanti per un’azienda:
- I dati possono essere compressi o deduplicati in base alle politiche aziendali
- I dati possono essere salvati e gestiti proprio come un sistema di storage tradizionale
- La provenienza dei dati può essere controllata con precisione, offrendo nuovi livelli di governance e compliance
Il concetto di archiviazione dell’oggetto indirizzabile non è diversa nel design di base da un ambiente di file sync-and-share, come Box o Dropbox. Tuttavia, invece dei dispositivi di prossimità sono le applicazioni mission-critical a elaborare i dati. La portabilità dei dati dà origine a nuovi livelli di opportunità per i dati da utilizzare e valore d’impresa che derivano. Questo approccio minimizza anche i carichi sulla LAN e sulla SAN, poiché l’ETL può essenzialmente essere eliminato.
Vendor che ci credono
Diversi fornitori hanno unito appliances progettate per Hadoop: NetApp’s FlexPod Select for Hadoop (che utilizza Hortonworks Data Platform), Pivotal’s Data Computing Appliance (DCA) o IBM’s PureData System for Hadoop appliances ad esempio. Queste offerte integrano server, rete, storage e il framework Hadoop per ottimizzare la distribuzione e la manutenzione. Tuttavia, i sistemi di storage sottostanti non dispongono di interfacce native HDFS. Nel caso della Pivotal DCA, tutto lo storage è locale rispetto ai nodi computazionali in ciascun sistema.
L’eccezione alla regola
Esiste un altro modo di integrare una soluzione di storage con Hadoop. Come osservato in precedenza, Hadoop è un framework, e HDFS è un modulo che si inserisce nel Hadoop. Così, l’eccezione all’integrazione HDFS è in realtà non utilizzare HDFS ma sostituirlo con un altro file system che si può anche collegare in Hadoop.
Ad esempio, General Parallel File System di IBM (GPFS) è un’alternativa ad HDFS. In sostanza, uno storage manager potrebbe spostare parte del carico dei dati da archiviare sull’amministratore Hadoop. Una scelta che certamente va ad aumentare la complessità di un ambiente di Big Data la cui sostenibilità è parte integrante del modello. Detto questo, la soluzione PureData di IBM fa uso di GPFS. Se il vostro ecosistema di Big Data sta per diventare “Blue”, questo tipo di scelta potrebbe essere quella più indicata per la vostra organizzazione.
Alcuni fondamentali per lo storage dei Big Data
La prossima generazione di data center altamente virtualizzati sarà data-centrica, non calcolo-centrica. Gli storage manager dovranno farsi carico della creazione di un’architettura capace di minimizzare se non azzerare lo spostamento dei dati tra le applicazioni.
Il tutto considerando anche l’impatto che questa evoluzione avrà sulle strategie di backup e disaster recovery. Forse la cosa più importante che va sottolineata è che questa è una evoluzione, non una rivoluzione. Detto questo, le imprese che si evolveranno più rapidamente avranno il vantaggio di precorrere i tempi guodagnando vantaggio competitivo.
Una cosa è certa: quando si tratta di Big Data bisogna muoversi e in fretta, abbracciando il cambiamento senza combatterlo per guidare l’evoluzione del reparto IT da centro di costo a fornitore di servizi di un’informazione sempre più dinamica.