Manutenzione server: ecco la checklist da seguire per data center moderni

Manutenzione dei server: una checklist per i data center moderni

Eseguire una puntuale manutenzione dei server permette di prevenire gravi malfunzionamenti e fa sì che ciascun apparato possa funzionare al meglio. I programmi di manutenzione non solo aiutano a verificare se tutti i componenti hardware e software di un server risultano in salute, ma possono anche far risparmiare tempo e denaro, specialmente quando a guastarsi sono macchine che operano in produzione

Pubblicato il 23 Mar 2021

Come tutte le macchine, a maggior ragione se sofisticate, anche i server del data center richiedono una regolare manutenzione per conservare un’operatività ottimale e mantenere le massime prestazioni. Da questo punto di vista, alcune semplici procedure possono aiutare a ridurre i casi più gravi di chiamate al servizio di assistenza. E a estendere la vita utile dei server.

Indice degli argomenti

Perché impostare una strategia di manutenzione dei server?

Se è vero che i server moderni hanno alte prestazioni e sono dotati di caratteristiche e funzionaltà ridondanti, va anche considerato che il crescente consolidamento dei workload e le aspettative degli utenti sul livello di affidabilità delle macchine obbliga a mantenerle sempre in perfetto stato.

Quindi la ‘checklist’, ossia la lista dei controlli da eseguire, dovrebbe coprire sia i componenti hardware e gli elementi fisici, sia la componente software e gli aspetti che riguardano le configurazioni critiche del sistema.

Un altro fattore da non trascurare riguarda il tempismo negli interventi: troppo spesso, infatti, gli amministratori dei server sottovalutano una metodica pianificazione dei tempi di manutenzione, riducendosi a intervenire quando ormai il guasto è manifesto. Per scongiurare tali rischi è quindi consigliabile riservare del tempo per eseguire sui server manutenzioni di routine preventive.

Manutenzione server: come programmare e preparare gli interventi?

Spesso la frequenza di manutenzione dipende da quanto l’attrezzatura è datata, dall’ambiente di data center, dal numero di server che richiedono manutenzione, e da altri fattori.

Le attrezzature più vecchie, collocate in armadi server e sale dati con diversi anni di vita, richiedono ispezioni più frequenti dei nuovi server, installati in data center ben raffreddati e dotati di filtri HEPA (high efficiency particulate air).

Per quanto riguarda le programmazioni della manutenzione di routine, esse possono ispirarsi a quelle del vendor o fornitore di terze parti. Se, ad esempio, il contratto di servizio del vendor richiede ispezioni del sistema ogni quattro o sei mesi, si può seguire quel programma.

Prima di procedere, affrontando i singoli punti della checklist di manutenzione del server, è bene predisporre un piano di controllo dei registri di sistema. Un piano atto a evidenziare errori o eventi che richiedono una più diretta attenzione. Per esempio, se i log di sistema denotano errori in uno specifico modulo di memoria, si dovrebbe ordinare un modulo DIMM in sostituzione, e mantenerlo disponibile per l’installazione. In maniera analoga, se sono disponibili firmware, sistema operativo o patch e update, è meglio collaudarli e verificarli, prima di procedere con la manutenzione.

Spegnimento e pulizia del server

Occorre anche definire un piano preciso per mettere offline il sistema e riportarlo in servizio una volta terminati gli interventi. Ma con alcune differenze rispetto al passato. Prima dell’avvento della virtualizzazione, il server e l’applicazione ospitata su di esso richiedevano una fase di ‘downtime’ per eseguire la manutenzione. E costringevano spesso il personale a effettuare le operazioni di notte o nel week-end. Oggi lo scenario è diverso. I server virtualizzati abilitano la migrazione dei workload, quindi le applicazioni si possono spostare. Non solo, si può mantenere le app attive e disponibili, su altri server, anche quando si fa la manutenzione sul server host di partenza. Una volta verificato che le macchine virtuali, e i rispettivi workload, che si sono fatti migrare sui sistemi selezionati, funzionano, è possibile spegnere il server. E quindi rimuoverlo dal rack o dall’enclosure, per eseguire la manutenzione.

A questo punto, una prima cosa importante è ispezionare tutte le vie di deflusso dell’aria. È necessario rimuovere accumuli di polvere e detriti in grado di impedire il raffrescamento del sistema. E controllare punti critici come il dissipatore della CPU, le ventole, i moduli di memoria. La pulizia si esegue con aria compressa e al riparo da elettricità statica. Polvere e ostacoli al passaggio dell’aria causano maggior consumo di energia da parte del server, e portano a premature avarie dei componenti.

Controllare hard disk locali e registro eventi

Altro aspetto chiave da verificare è l’integrità degli hard disk locali, i cui problemi influenzano seriamente prestazioni e stabilità, spesso portando a prematuri guasti dell’unità. Negli hard disk magnetici i problemi comuni includono settori danneggiati e frammentazione del disco. Tra gli strumenti disponibili, l’utilità CHKDSK (Check Disk) permette di verificare l’integrità del supporto, tentando di recuperare ogni settore danneggiato. La frammentazione, invece, è in grado di rallentare un disco del server, causando guasti. In questi casi, una utility come Optimize-Volume, disponibile in Windows Server 2012, organizza ciascun cluster in maniera contigua sul disco, correggendo il problema.

La checklist della manutenzione del server deve comprendere anche un’attenta analisi del registro eventi. Questo per individuare eventuali problemi di minor entità che però possono rivelare difetti cronici o ricorrenti. Occorre, ad esempio, controllare la configurazione del sistema di segnalazione allarmi. Verificare che i destinatari degli alert siano corretti. E, in caso di cambiamenti del personale tecnico, aggiornare il sistema di reporting.

Verificare patch e aggiornamenti e registrare le modifiche

Nessun software in produzione dovrebbe essere in grado di aggiornarsi in automatico, poiché deve essere sempre l’amministratore del sistema a stabilire se determinate patch o upgrade sono davvero necessari. Infatti, talvolta, questi ultimi possono creare più problemi di quelli che risolvono sullo specifico server o stack software. E questo, occorre aggiungere, è un rischio che tende a crescere, soprattutto con l’avvento delle metodologie DevOps, che si fondano su aggiornamenti piccoli e più frequenti.

Un’ultima raccomandazione, una volta completata la checklist, è bene registrare tutti i cambiamenti (hardware, software, configurazione) attuati nel server, in modo che le informazioni restino a disposizione dello staff IT. Una verifica va fatta anche sulla ‘security posture’ (impostazioni firewall, IDS/IPS, versioni anti-malware) del sistema. In aggiunta, una volta che il server è di nuovo online, non va nemmeno trascurata la verifica, ed eventuale aggiornamento, delle sue impostazioni di backup e disaster recovery.

Manutenzione e sicurezza del server, cosa fare in sintesi

In conclusione, un veloce riepilogo di cosa fare per essere certi di poter contare su server aziendali efficienti. In primo luogo, aggiornare sempre i software. Quindi, scongiurare perdite di dati facendo backup. Predisporre procedure di ripristino. Intervenire immediatamente in caso di problemi. Evitare pericoli di illeciti involontari che determinino l’inserimento dell’IP server in blacklist.