Come Cio e It manager sanno bene, il contributo della funzione It al successo di un’impresa è molto cambiato, passando da puro strumento finalizzato a ridurre i costi e ottimizzare l’efficienza delle operazioni a mezzo capace di promuovere lo sviluppo e l’innovazione del business in quanto tale. Una conseguenza di questo modo di concepire ruolo e valore dell’It è che cambia anche la visione del valore che l’infrastruttura fisica del data center ha nei confronti del business. Per quanto la disponibilità dei servizi e il costo della loro erogazione restino fondamentali, non sono più gli unici elementi sui quali basarsi per valutare l’apporto del data center alla capacità operativa dell’impresa (e quindi per decidere i relativi investimenti infrastrutturali). Con la disponibilità conta anche l’agilità con la quale l’infrastruttura può sostenere le diverse e mutevoli esigenze alle quali l’It, è chiamata a rispondere e conta il Tco, inteso come somma dei costi, anche nascosti, di gestione e mantenimento dell’infrastruttura (vedi figura).
Su questo tema complesso e relativamente poco indagato, Schneider Electric, che con la sua business unit It è specialista nei sistemi di alimentazione e raffreddamento, ha realizzato un ‘white paper’ molto articolato dedicato agli aspetti relativi a quegli interventi sull’infrastruttura che ne possono migliorare il valore per l’impresa. Qui diamo un riassunto di alcuni punti che più possono interessare Cio e responsabili I&O (Infrastrutture e Operazioni) per indurli a considerare il vero valore di business della loro infrastruttura ed eventualmente valutare un piano d’intervento.
Avaiability: oltre la ridondanza
La disponibilità, o availability, è, secondo la definizione dell’IEEE (Institute of Electrical and Electronics Engineers), “il livello al quale un sistema o un suo componente è funzionante e utilizzabile quando sia richiesto”. Si tratta, ovviamente, del requisito principale di ogni infrastruttura, ma è un concetto che lascia spazio a diverse interpretazioni e metodi di calcolo. Un mezzo comune per esprimerne numericamente il livello è quello di assumere la percentuale di tempo nel quale il sistema è operativo. È da ciò che deriva il cosiddetto ‘five-nines’, ossia l’operatività del 99,999% che costituisce l’obiettivo di molti responsabili I&O e corrisponde a un fermo (downtime) di 5 minuti in un anno. Molti apparati offrono un’availability ‘five nine’, ma va ricordato che il downtime di un sistema è dato dal prodotto, e non dalla somma, dei tempi di fermo dei suoi componenti. Poiché però a ridurre il downtime contribuisce più che l’affidabilità intrinseca dei componenti la velocità di recupero dell’operatività a seguito di un qualsiasi incidente (a sua volta definita dal Mttr, Mean Time To Recover), l’Uptime Institute, un ente autonomo di certificazione universalmente riconosciuto, ha proposto un criterio diverso, che attribuisce livelli crescenti, da 1 a 4, di availability secondo la ridondanza dei sistemi e, soprattutto, il tempo in cui il sistema secondario entra in linea sostituendo quello in avaria. Da notare che i sistemi considerati in questa stima non sono solo quelli delle funzioni It ma includono tutti gli anelli di una catena che comprende alimentazione, Ups, distribuzione, raffreddamento, Crac (Computer room air conditioner) e quant’altro il cui blocco possa influire, anche in parte, sull’operatività del data center.
L'anello debole: il fattore umano
Pensare alla disponibilità in funzione esclusiva dell’affidabilità degli apparati è rischioso, perché vi sono altri fattori da considerare, da quelli ambientali (possibilità di allagamenti, terremoti, danni indiretti da vicinanza a strutture a rischio e così via) a quelli legati agli errori umani. Secondo l’analisi realizzata da Apc, il fattore umano, che anche qui non riguarda solo la gestione dei sistemi It ma di tutti gli apparati del data center, è responsabile dal 40 al 60% del tempo di downtime, quasi quanto, o di più, dei guasti e dei disastri ambientali messi assieme. Ma l’errore umano non è imponderabile e si può prevenire. Nell’arco di vita medio di 10-15 anni di un data center è normale che i sistemi It vengano cambiati anche più volte; quando ciò accade possono cambiare i requisiti di alimentazione e di raffreddamento e anche le norme di sicurezza. Per esempio, un nuovo blade server può aver bisogno di un flusso d’aria più concentrato, come l’introduzione di storage a stato solido esige un’alimentazione diversa. Questi cambiamenti invitano ad errori umani che i costruttori di sistemi non considerano nei livelli di affidabilità dichiarati. Bisogna però che il responsabile del data center ne tenga conto in modo da dare il giusto valore a quegli elementi di progetto che li possono ridurre (come un disegno semplice e delle interfacce-utente intuitive) e che ne facilitano la gestione, l’aggiornamento e la sostituzione.
Il valore della flessibilità
L’agilità di un’infrastruttura è la sua capacità di adattarsi ai cambiamenti, ma ciò significa molte cose. Significa facilità di deployment per far fronte a progetti dove il fattore-tempo è vitale, ma significa anche capacità di riconfigurazione per quei progetti soggetti a cambiare in stato d’opera. E significa capacità di scalare con facilità per far fronte a un improvviso aumento di utenti o di operazioni senza doversi preparare con infrastrutture inutilmente sovradimensionate rispetto ai bisogni del momento. Quest’ultimo aspetto è vitale quando (ed è la norma) l’investimento va contenuto, ma nonostante ciò i data center lavorano spesso al di sotto della capacità. Non perché non si sappia che sovradimensionare è una spesa inutile, ma perché il rischio di trovarsi con infrastrutture inadeguate alla crescita del business crea all’impresa (e all’It) un danno anche peggiore. Tra i punti di cui tener conto nel valutare la flessibilità dell’infrastruttura vi sono: possibilità di installare nuovi sistemi senza intervenire sul sito (per allargare porte, spostare pareti e tubature e così via); facilità di spostare i sistemi esistenti presso un nuovo sito se ciò occorre; possibilità di scalare rapidamente i sistemi di backup ed accorciarne il runtime; rapidità nel cambiare tipo di alimentazione (da corrente continua ad alternata e viceversa) e relativi connettori; facilità di attuare un’availability mirata ridondando una parte limitata del data center senza metter mano all’intera infrastruttura.