Il day-by-day cambia il data center

Il data center è oggi al centro di un vasto processo di rinnovamento. Un po’ per poter assolvere a compiti sempre più complessi con budget che limitano il ricorso a nuovo hardware e un po’ perché non c’è modo per farne uno strumento di attuazione delle strategie aziendali se non riducendo il peso e il costo delle operazioni quotidiane attraverso l’uso di risorse pensate per un impiego razionale ed ottimizzato. Vediamo allora come quest’ottica di razionalizzazione influenzando lo sviluppo delle piattaforme server e dei sistemi storage

Circa sei mesi fa, al Ca world 2008 di Las Vegas, ascoltavamo Al Nugent, Chief Technology Officer di Ca che lanciava l’idea del ‘logical data center’, un’entità priva di un’infrastruttura propria ma in grado di funzionare reperendo risorse esterne ove disponibili e gestendole attraverso il Web. Forse non arriveremo a tanto e forse la visione di Nugent era un po’ influenzata dall’essere il Cto di un vendor che ha fatto dell’Enterprise It management la propria missione. Certo è, però, che il data center è oggetto di una profonda evoluzione, che ne riguarda sia la funzione sia la struttura.
Sulla funzione dell’It nel sostenere e promuovere il business abbiamo scritto tanto e in tante occasioni. Anche a come i responsabili It debbano mettere in pratica questa funzione di sostegno e spinta abbiamo dedicato molte pagine. Ora, in questa nuova sezione della rivista, parliamo di Sistemi e Architetture, di cose che ronzano, scaldano e si toccano con mano; e anche il linguaggio dev’essere concreto. Ma di concreto, in tutto quello che oggi il Cio si trova a leggere e ad ascoltare, c’è una cosa sola: che deve fare sempre di più con sempre meno. Meno soldi, meno persone, meno risorse tecnologiche. Questa è la realtà, ma questa è anche la spinta principale verso quella evoluzione di cui si è detto. Ed è anche l’opportunità per un Cio di dimostrare, ridisegnando il data center, che sì, fare di più con meno si può.
Il compito dell’It, si è detto, è sostenere e promuovere il business. La prima funzione è delegata alle operazioni correnti relative ai processi in atto, la seconda ai progetti volti ad innovare processi e attività. Di solito, è di questa parte ‘nobile’ dell’It che ci occupiamo, ed è giusto perché è dall’innovazione che nasce la competitività dell’impresa e nello sviluppo di nuovi progetti sta il ruolo strategico dell’It. Ma qui è diverso. Sappiamo tutti che le operazioni correnti e l’ordinaria manutenzione assorbono i tre quarti del budget. Se bisogna fare di più con meno si deve partire dal day-by-day, perché è lì che se ne vanno i soldi ed è quindi da lì che si possono recuperare. In altre parole: se vogliamo che il data center diventi uno strumento a supporto delle strategie dell’impresa la strada passa necessariamente per il riordino e la razionalizzazione delle attività quotidiane.
Una prima risposta al problema sta nel razionalizzare l’impiego delle risorse disponibili tramite soluzioni di performance management e capacity planning che siano in grado di analizzare l’impatto che ogni componente dell’infrastruttura It toccato dall’applicazione ha sulle prestazioni finali in modo da ottimizzarne l’impiego.
Non è un compito facile, ma va fatto. E diventa indispensabile qualora, come secondo Gartner è il caso del 39% delle imprese, si siano realizzati o avviati progetti di consolidamento dei data center. Questi portano vantaggi al business (più agilità e maggior livello di servizio) così come alla funzione It (riduzione del Tco e risparmi nell’alimentazione e condizionamento, nonché nello spazio dei locali) ma comportano una complessità operativa che va affrontata con specifici strumenti.
Una seconda risposta, più consistente, sta nella virtualizzazione, che, anche qui tramite soluzioni automatizzate, permette di distribuire i carichi di lavoro tra tutti i server e i sistemi storage disponibili così come viene più utile ed economico fare nei confronti delle applicazioni.
Se l’uso razionale ed ottimizzato delle risorse avviene essenzialmente tramite soluzioni software, anche l’hardware sta facendo la sua parte, ed è una parte da protagonista. Assistiamo infatti ad un’evoluzione dei sistemi server e storage lungo una linea che cerca di ottenere, in larga parte attraverso la standardizzazione e la modularità dei componenti, sia le migliori prestazioni sia la migliore flessibilità d’impiego.

Figura 1: Mentre l’energia cresce in modo quasi proporzionale al numero dei server installati e quella per l’acquisto delle macchine in modo meno che proporzionale grazie al minor costo unitario del nuovo hardware, le spese di gestione e amministrazione dell’infrastruttura crescono a un tasso molto più elevato e sono in assoluto la maggior voce di spesa del data center.
(cliccare sull’immagine per ingrandirla)

I nuovi server? Windows e multicore
Sono molte le tecnologie che costituiscono nel loro insieme un’infrastruttura It e le permettono di funzionare. E come le parti di un organismo, sono tutte interdipendenti e l’evoluzione di una, influenza e viene influenzata dalle altre. Per poterne parlare senza sovrapporre continuamente concetti e parole, le tratteremo in modo separato. Ma dobbiamo ricordare che si tratta di una divisione artificiale: un data center è un corpo unitario che si sviluppa nelle sue funzioni al servizio dell’impresa solo se tutte le sue componenti si sviluppano armonicamente in tal senso.
Partiamo dunque dal server, pietra angolare di ogni infrastruttura It. La prima considerazione da fare è che l’evoluzione delle piattaforme server sta avvenendo lungo direttrici che vanno a soddisfare diverse esigenze, e che queste sono a volte tra loro conflittuali: la virtualizzazione, per dirne una, va contro la sicurezza, mentre la potenza e scalabilità nelle prestazioni trova dei limiti nelle funzioni necessarie a controllare e gestire l’infrastruttura. A mediare ed ottimizzare queste esigenze provvede il sistema operativo, la cui funzione primaria è quella di fornire un’interfaccia tra il ‘ferro’ della macchina e le attività che questa è chiamata a fare. L’architettura classica sulla quale i sistemi operativi si sono sviluppati è a due livelli. Un ‘nocciolo’ (kernel) che provvede alle funzioni indispensabili alla gestione dell’hardware (dal basic I/O al controllo della memoria di massa), più una serie di ‘servizi’ (che vanno dai ‘driver’ per il controllo delle periferiche alle directory per la gestione dei file) che ‘circondano’ il nocciolo portandone le funzioni a livello dell’utente, che talvolta è la persona fisica del system administrator ma di regola è il software applicativo. Sono questi servizi che rendono il nostro computer un ‘servente’ agli ordini del business e non un qualcosa, come i computer incorporati nei tanti dispositivi ‘intelligenti’ che ci circondano, che funziona benissimo ma sul quale non abbiamo alcun controllo.
Se abbiamo ricordato concetti che sono all’Abc dell’informatica, è perché questi concetti sono oggetto dei trend evolutivi dei server che riguardano l’hardware e i sistemi operativi. Partiamo dal silicio. Negli ultimi tempi l’indirizzo dei produttori di microprocessori si è spostato dal raggiungimento della massima velocità di esecuzione di set d’istruzioni sequenziali (che nei chip in tecnologia a 45 nm è vicina ai limiti della fisica dei semiconduttori) verso l’aumento del numero di serie di istruzioni sequenziali eseguibili contemporaneamente da processori dotati di due o quattro nuclei di calcolo. I processori multicore offrono, così come i chip ad alta frequenza di clock, un incremento di capacità elaborativa e quindi permettono di consolidare più applicazioni indipendenti od ospitare più macchine virtuali su una stessa macchina fisica. Ma è l’unica cosa che le due tecnologie abbiano in comune. Per il resto, l’adozione di server con processori dual e quad core implica notevoli mutamenti nella loro operatività, e non tutti positivi. Se da un lato aumenta, come è ovvio, la capacità di eseguire codice parallelo, la velocità d’esecuzione della singola serie d’istruzioni non cresce di molto, per cui l’esecuzione dei vecchi programmi non ne trae vantaggi significativi. Occorre riscrivere il software in chiave di parallelizzazione delle istruzioni, e ciò richiede nuovi strumenti di sviluppo e nuovi skill dei programmatori. Infine, anche se non è un problema tecnico, molti Isv hanno (giustamente, dal loro punto di vista) rivisto al rialzo i prezzi delle licenze software per le applicazioni eseguite su piattaforme multicore, e anche questo ha il suo peso.
Per quanto riguarda i sistemi operativi, lo sviluppo di piattaforme complesse e performanti esige kernel di maggiore efficienza, mentre le interfacce grafiche, le suite integrate e i framework applicativi richiedono servizi più complessi. Si tratta di tendenze contrastanti: un Os ridotto ad un kernel compatto va a tutto vantaggio della sicurezza e delle possibilità di virtualizzazione, ma uno espanso può comprendere tool di gestione, auditing e controllo delle risorse capaci di funzionare in modo più efficace. Uno dei motivi del successo di Linux, che Gartner stima come l’Os a più alto tasso di crescita da qui al 2012, sta anche nel fatto che a causa dei differenti modelli di sviluppo e proprietà intellettuale del kernel, che è ‘open’, e dei servizi aggiunti dalle diverse distribuzioni, si tratta di un Os in un certo senso ‘modulare’, che può funzionare bene su diverse piattaforme hardware e rispondere a diverse esigenze. Anche Windows, l’Os server oggi più diffuso e che crescerà ancora, seppure ad un tasso minore, nel quinquennio, si è un poco ‘aperto’ e offre una crescente flessibilità. Nel medio termine, Windows e Linux dovrebbero giocarsi la scelta di piattaforma d’elezione per i data center, senza per questo sostituirsi ai vari Unix (Aix, HpUx e Solaris), la cui presenza resta stabile grazie soprattutto alle prestazioni dei sistemi cui sono legati.

Figura 2: Il rapporto tra lo spazio su disco allocato ma non scritto, e quindi sprecato, varia a seconda dell’architettura storage da un livello massimo per quello distribuito e connesso al server a un livello molto inferiore per quello condiviso e connesso in rete. Con il thin provisioning lo spazio inutilizzato si riduce a una quota minima di sicurezza.
(Cliccare sull’immagine per ingrandirla)

Storage: niente più spazi sprecati
Assieme al server, e ad esso legato, lo storage è il secondo pilastro funzionale di un data center. Il primo elabora e produce, il secondo registra e conserva. Un ruolo quindi in teoria secondario, o alla pari, rispetto al server. In pratica, invece, è oggi il problema maggiore. Questo perché, come si sa, il volume dei dati da gestire e archiviare cresce ad un ritmo incontrollabile. Secondo Gartner entro il 2011 lo storage installato dalle imprese utenti sarà, in terabyte, 6,5 volte quello installato nel 2007. Per cui chi ha comprato meno di due anni fa (quindi con un investimento ancora da ammortizzare) dischi per, poniamo, 12 TB, dovrebbe comprarne in due anni per altri 66, per arrivare ai 78 di cui avrà bisogno. E per quanto il costo per TB sia sceso, la spesa in storage, tra hardware e software (perché poi i TB bisogna gestirli), assorbe una fetta crescente del budget It.
Con queste premesse, è logico che il trend evolutivo dello storage sia soprattutto verso la riduzione dello spazio occupato e solo in parte minore verso la velocità di accesso. Quest’ultima però è oggetto di una notevole innovazione tecnologica: l’introduzione dei cosiddetti dischi a stato solido (Ssd), costituiti da una griglia di banchi di memoria non volatile, al posto dei tradizionali disk drive meccanici. Non è una novità assoluta (il primo Ssd venne lanciato da StorageTek – trent’anni fa), ma oggi s’intravede la possibilità che diventino ‘mainstream’ grazie alle crescenti esigenze di performance anche in sistemi che trattano grandi volumi di dati. Emc è stata la prima ad imboccare questa strada, seguita recentemente da Ibm.
I dischi a stato solido hanno molti vantaggi: sono velocissimi nell’I/O e nel tempo di latenza; non avendo parti meccaniche resistono ad urti, vibrazioni e sbalzi termici; richiedono meno energia per alimentazione e raffreddamento.
I punti deboli sono due: una più complessa gestione dell’allocazione degli spazi e soprattutto un costo per GB molto elevato, più di 10 volte rispetto ai migliori disk drive. Per questo (ed è un terzo punto debole) la loro applicazione in ambiente enterprise non è ancora abbastanza sperimentata. Ma certamente lo diventerà, si tratta solo di aspettare.
Tornando al problema numero uno, per risparmiare Gigabyte bisogna ridurre sia lo spazio utilizzato, cioè occupato dai dati, sia quello sprecato, cioè assegnato ma non occupato.
Essendo la densità di scrittura giunta quasi al limite della tecnologia dei dischi magnetici, le soluzioni in atto sono tutte software. Si tratta però di software (o firmware) che lavora a livello di disk controller, con un minimo impatto sulla velocità delle operazioni gestite dal sistema operativo.
Algoritmi di compressione dati sono in uso da anni; più recentemente, a questi si è aggiunto il principio dell’istanza singola (Sis, single instance store), in base alla quale viene registrata una sola copia di un file, al quale fanno riferimento tramite puntatori tutti gli utenti e le applicazioni che ne possono aver bisogno. Gli algoritmi Sis analizzano i contenuti e identificano come copie anche file con nomi diversi e di diversi utenti e sono alla base di soluzioni di content management come Emc Centera o Microsoft Exchange.
Un più avanzato livello del principio del SIS viene applicato dalla deduplicazione dati. Mentre il SIS agisce sui file, la deduplicazione agisce a un livello inferiore, eliminando grazie ad algoritmi di identificazione e confronto, le ridondanze tra i blocchi dati registrati e costituenti un file ed ottenendo così un notevolissimo risparmio (si pensi, per esempio, a quante volte in un’anagrafica si ripetono nomi e indirizzi).
Sul fronte della riduzione dello spazio sprecato vi è invece il cosiddetto ‘thin provisioning’. Il concetto è semplice: mentre in un normale disk array lo spazio su disco viene assegnato all’applicazione al momento in cui questa lo richiede, il thin provisioning lo assegna solo quando l’applicazione lo occupa effettivamente scrivendo i dati. Il guadagno è notevole, specialmente nel caso dello storage Das (direttamente connesso al server), soluzione diffusa nelle piccole imprese e che spreca oltre il 75% dello spazio su disco. L’utilizzo di un disk array condiviso in Nas o San è molto migliore, ma ben lontano dal 65-80% ottenibile con il thin provisioning.
L’unico problema è che bisogna continuamente controllare lo spazio rimasto libero per evitare che sia meno di quello che un’applicazione può chiedere. In compenso, un imprevisto bisogno di storage può essere, in genere, immediatamente soddisfatto dato che lo spazio libero viene condiviso da tutte le applicazioni.
La migrazione dei dati da dischi ad alte prestazioni e bassa capacità a dischi a basse prestazioni ed alta capacità (e viceversa), è invece una soluzione che permette di ottenere un’elevata qualità di servizio a costi accettabili. In pratica, vengono portati sui dischi veloci i dati più frequentemente acceduti, e su quelli lenti (o sui nastri) quelli che lo sono più raramente. Il ‘segreto’ sta nell’automazione del processo, che avviene in modo trasparente sia all’applicazione sia al system administrator, mentre le soluzioni più avanzate adottano un approccio tecnologico che non si serve di agenti software che esaminano i percorsi di I/O e gli accessi ai database, ma di metadati che identificano i blocchi adatti ad essere migrati (in un senso o nell’altro) a livello del sistema storage, che agisce quindi in modo indipendente e neutro dal server e dall’applicazione.

Il networking che fa qualità

Il networking è, ovviamente, fondamentale per il funzionamento di un qualsiasi centro dati. Soprattutto le prestazioni risentono di eventuali colli di bottiglia imposti da una topologia di rete mal progettata o da dispositivi d’instradamento inadeguati. Negli ultimi cinque anni si sono fatti grandi progressi sul fronte della larghezza di banda disponibile e questa, con l’avvento generalizzato degli affidabili switch Ethernet 10 Gbps, non è generalmente più un problema. Negli ultimi tempi si è però assistito al progressivo aggiungersi di nuove funzioni di rete e alla comparsa di nuovi dispositivi, come i server load balancer. Poiché si tratta in genere di funzioni stand-alone e di device low-density, cioè a basso livello d’integrazione funzionale, il loro proliferare complica parecchio la gestione della rete nel suo insieme. Per questo la tendenza è verso lo sviluppo di piattaforme multifunzionali e ad alta densità in grado di potenziare la capacità e il livello di servizio del networking riducendo nello stesso tempo il consumo d’energia. Ciò si riflette sul rendimento dei sistemi, server e storage, nonché sull’availability e sulle performance delle applicazioni. Ad esempio, scaricando dalla rete determinate funzioni (come quelle relative all’SSL e alla decrittazione dei file), gli application delivery controller possono ridurre significativamente il ricorso al server, riducendone il numero e facilitandone la virtualizzazione. Ancora più importante, si riduce decisamente il tempo di risposta dell’applicazione, elemento chiave ai fini della qualità del servizio.

Anche il blade dovrà cambiare

Parlando di Data Center e delle sue evoluzioni, non possiamo non citare quella che è l’innovazione di maggior successo degli ultimi anni: i sistemi ‘blade’. Questo termine identifica un formato che prevede una sottile scheda (la ‘lama’) contenente solo i processori, la Ram e gli altri componenti delegati all’elaborazione, ma priva di alimentatori, ventole e connettori vari. Questi sono posti in una struttura (detta ‘chassis’ o anche ‘enclosure’) che alloggia i blade server e sono ridondati in modo da garantire all’insieme una maggiore affidabilità. Nato per risparmiare spazio e consumi energetici dei data center, dato che a parità di potenza di calcolo un ‘blade’ assorbe il 30% in meno di energia di un server rack, questo formato (che non tocca l’architettura del sistema ma solo la disposizione fisica dei componenti) grazie ai suoi princìpi di standardizzazione e modularità risulta ideale per un’infrastruttura virtualizzata. La tendenza è quindi quella di applicare, per quanto possibile, i concetti del ‘blade’ anche allo storage e al networking (router-switch) per realizzare infrastrutture It non solo molto compatte (‘data center in a box’) ma anche d’impiego estremamente flessibile grazie appunto a soluzioni di server e storage virtualization facili da implementare e spesso fornite in bundle con l’hardware. Il problema è che pur essendo tutte orientate alla massima standardizzazione interna, queste soluzioni non sono standard tra di loro e chi ha scelto oggi lo chassis di un certo fornitore dovrà restare fedele a quello anche per tutto ciò che ci andrà dentro domani. Siccome l’esperienza ha provato che il design proprietario nel lungo termine non paga, è possibile, osserva Gartner, che si apra una terza via: l’applicazione del concetto del blade, cioè un backplane che fornisce servizi di alimentazione, raffreddamento e connettività ad elementi ridotti all’essenziale, al formato rack, che è standard. Si tratta però di una congettura che, per quanto logica, non è ad oggi supportata da alcun dato di fatto.

Il day-by-day cambia il data center

Articoli correlati

Cos’è l’intelligenza artificiale: applicazioni attuali e future

Codice Rss

Codice Rss