Recentemente Ibm ha annunciato XIV Storage System, un sistema il cui arrivo sul mercato, nonostante sia avvenuto piuttosto in sordina (in Italia è stato presentato a febbraio in un evento che comprendeva tutta una serie di soluzioni e servizi per le imprese), costituisce, a nostro parere, un fatto di notevole importanza non solo per l’offerta storage Ibm ma per l’intero settore. L’elemento di rottura portato dal XIV sta nel fatto che il sistema presenta, in una soluzione dichiaratamente mainstream e rivolta al business, un’inedita architettura parallela
basata sui princìpi del grid computing. Come spiega Sergio Resch (nella foto), System Storage Platform Advocate di Ibm Stg: “Si tratta di un sistema costituito da moduli ognuno dei quali contiene i dischi, la cache memory e la Cpu di controllo. Ciò permette di gestire i dati in modo da avere il massimo parallelismo e la massima cooperazione da tutte le componenti del sistema”. Secondo Timothy Stammers, senior analyst di Ovum, questa architettura “…sarà il motore di una gran parte dello storage futuro e con la quale i dipartimenti It dovranno cominciare ad avere familiarità”. Vediamo allora di parlare, sia pure a grandi linee, dello storage parallelo e di ciò che questo, nato e diffuso nel mondo dei sistemi Hpc (High Performance Computing), potrà rappresentare nel mondo dei sistemi per il business.
L’evoluzione tecnologica in atto nelle infrastrutture dei sistemi aziendali segue tendenze aventi il fine ultimo di rendere più potenti, veloci e flessibili i sistemi stessi e quindi i processi da cui dipende la competitività dell’impresa. A ciò tendono sia l’elaborazione multicore, sia il networking ad alta velocità, sia le soluzioni di grid computing e di virtualizzazione. Tutte queste cose funzionano bene finché non si arriva allo storage. Che ha fatto passi da gigante in fatto di capacità, sia in assoluto, sia in rapporto al costo e, con la virtualizzazione, all’utilizzo; ma che ha fatto molta meno strada sul fronte dell’I/O, rendendo il traffico dei dati tra i server e lo storage, Nas ma anche San, il collo di bottiglia che limita prestazioni e scalabilità dei sistemi.
Le soluzioni escogitate per superare questo limite contemplano due approcci, applicati di solito contemporaneamente: la riduzione del volume del traffico e la riduzione del tempo di accesso, che ne aumenta la velocità. La prima si ottiene spostando molte operazioni di gestione sul dispositivo storage, in modo da far viaggiare in rete solo i dati, e limitando backup e restore ai soli dati significativi. La seconda si ottiene con connessioni veloci e switch ‘intelligenti’ e soprattutto ampliando le memorie cache, che ammortizzano il tempo di latenza dei dischi, e adottando dischi a stato solido (Ssd) come supporto di primo livello (zero-tier) per i dati più spesso acceduti. Tutti questi sistemi aggirano ma non risolvono il problema. E anche se il prezzo dei banchi di memoria è sceso quasi quanto quello dei dischi, cache memory e Ssd restano soluzioni costose.
Ma siccome quando c’è una vera domanda la risposta prima o poi si trova, ecco che nello storage sono comparse da qualche tempo le architetture parallele, dove le informazioni sono distribuite su dischi aggregati in cluster che sono letti e scritti contemporaneamente. L’importanza dello storage parallelo, il cui concetto si può interpretare come un’evoluzione degli ambienti virtualizzati, sta nel fatto che diventa possibile, tramite un file system che supporti un accesso diretto al pool delle risorse, evitare il collo di bottiglia del file server adeguando lo storage alle crescenti prestazioni degli application server e potenziandone le prestazioni in progressione lineare con la capacità dei dischi. In modo del tutto trasparente all’applicazione, le informazioni sono distribuite tra i dischi con uno ‘striping’ simile a quello attuato nei Raid e quindi ricostruite leggendo in parallelo le stringhe dati. Se connesso con risorse di elaborazione a loro volta organizzate in cluster e capaci quindi di lavorare in parallelo, il guadagno in termini di velocità di I/O è evidente. Con l’eccezione di Lustre, il distributed file system usato nei cluster Linux, dal 2007 sviluppato e mantenuto da Sun in licenza Gnu, i file system in questione sono proprietari. A febbraio però l’Internet Engineering Task Force ha rilasciato la versione 4.1 del classico Network File System, che presenta l’inedita opzione pNFS per l’accesso diretto e parallelo allo storage. Con ciò l’architettura parallela acquista uno standard di fatto che può influire parecchio sul suo sviluppo.
Lo storage parallelo è nato in ambito Hpc, ma non bisogna credere che tale sigla identifichi solo i sistemi di calcolo intensivo per il mondo della scienza e della tecnica. La diffusione della banda larga e l’avvento delle applicazioni Web 2.0, come quelle che gestiscono lo scambio d’immagini, musiche e filmati, forniscono soluzioni SaaS o reggono siti Web commerciali ricchi di contenuti e di funzioni interattive, con una conseguente moltiplicazione nel numero dei sistemi destinati alla gestione di grandi volumi di dati e di file di grandi dimensioni tra un grande numero di utenti con un servizio che dev’essere 24×7. Secondo Idc il mercato dello storage Hpc ha superato nel 2008 i quattro miliardi di dollari. Abbastanza per giustificare un’offerta dedicata.
Lo storage parallelo rappresenta oggi un mercato caratterizzato da un certo numero di fornitori con soluzioni specializzate. Tra questi emerge la californiana Panasas, il cui storage ActiveStor è accreditato della maggior presenza in campo Hpc e che ha stretto accordi tecnologici e commerciali con Sgi e con Dell. Poi troviamo Isilon Systems, Pillar, società che da un paio di mesi ha anche una presenza diretta in Italia, a Milano, e 3PAR. Quest’ultima ha rilasciato un soluzione specifica per le utility company; mentre un sistema superveloce (oltre 11mila operazioni di I/O al secondo) mirato alle infrastrutture a supporto delle comunicazioni mobili è stato lanciato da Atrato, una delle ultime arrivate nel settore.
Le prospettive di mercato dello storage parallelo non potevano però non interessare i grandi fornitori hardware. Emc ha recentemente presentato un sistema storage multi-tier con funzioni di virtualizzazione e parallelizzazione basate sulla nuova architettura Symmetrix Virtual Matrix e su soluzioni VMware. Dell, oltre alla partnership con Panasas, ha anche avviato un suo approccio al problema con soluzioni sviluppate a seguito dell’acquisizione, nel 2007, di EqualLogic. Mentre Hp ha acquisito lo scorso ottobre LeftHand e ha già presentato soluzioni di San basate su tale tecnologia che sfruttano al meglio gli ambienti virtuali eliminando i colli di bottiglia di cui si è detto.
Anche il nuovo sistema Ibm è frutto di tecnologia esterna, sviluppata con l’acquisizione, nel gennaio 2008, della XIV, una start-up israeliana che aveva solo una quarantina di clienti ma un’architettura dagli aspetti originali che le ha permesso di offrire una soluzione che entra a pieno titolo nel mercato dello storage parallelo. A parte la struttura in moduli integrati citata da Resch, XIV sfrutta un algoritmo che divide i dati in partizioni da 1 Mb distribuite tra tutti i dischi del sistema e ne registra la posizione in modo da poter riorganizzare il sistema quando viene aggiunto o rimosso un modulo. I blocchi dati sono inoltre automaticamente replicati. Ciò riduce di molto la capacità effettiva rispetto a quella nominale (che va da 27 a 79 TB per la versione ‘small business’ e da 72 a 180 TB per quella enterprise) ma permette di ricostruire in meno di 30 minuti il sistema nel caso di un guasto dei dischi o delle Cpu di controllo. Ma soprattutto, come osserva l’analista Ovum, XIV utilizza economici dischi Sata da 1 TB offrendo al mercato uno storage ad alte prestazioni, capacità e availability a costi d’investimento e di gestione (ivi compreso il consumo energetico) competitivi per questa classe di sistemi. Peccato che al momento XIV non abbia storage multi-tier, cioè con diversi livelli di servizio. Ma si tratta di un limite al quale probabilmente Ibm sta già lavorando (il che spiegherebbe il basso profilo mantenuto sinora) per affinare una soluzione che fa classe a sé.