Come monitorare l'utilizzo della CPU negli ambienti SDN

Monitorare l’utilizzo della CPU negli ambienti SDN: ecco come fare

Monitorare l’utilizzo della CPU in un networking software-defined è fondamentale per determinare la capacità della rete e la potenza elaborativa adeguata. Soprattutto quando i carichi di lavoro sono in competizione tra di loro per le risorse

Pubblicato il 26 Giu 2019

Monitorare l’utilizzo della CPU in un ambiente SDN aiuta le aziende ad assicurarsi di avere la capacità di rete necessaria.

Come ricordano gli esperti, la cosa positiva delle reti software-defined è che la funzione principale della rete viene spostata dalla sfera dell’hardware e dei processori al silicio dedicati, alla sfera di un software motorizzato da un hardware x86 generico e altre commodity hardware di rete. Il che ha anche il suo rovescio al negativo che consiste nel dover imparare a gestire le risorse di rete attraverso un approccio più sofisticato.

Soprattutto considerando come molte delle funzioni di rete nei data center, e persino in alcune filiali, vengono eseguite nella stessa infrastruttura. Di conseguenza, l’SDN può effettivamente competere con risorse CPU limitate da altri carichi di lavoro che transitano nel data center.

Indice degli argomenti

Perché monitorare l’utilizzo della CPU in ambienti SDN

L’SDN impone al management di monitorare l’utilizzo della CPU per due ragioni:

assicurarsi di avere la capacità di rete necessaria
assicurarsi di avere la capacità di calcolo necessaria, considerando tutti i carichi di lavoro che condividono l’infrastruttura

Cosa è necessario monitorare, dunque? In una rete definita dal software è necessario verificare e controllare:

i dispositivi del piano dati fisico (soprattutto gli switch)
i dispositivi di piano dati virtuali
i controller

I dispositivi e i controller virtuali di solito vengono eseguiti all’interno del data center, principalmente all’interno di spazi gestiti dagli hypervisor come VMware, macchine virtuali basate su kernel, Microsoft Hyper-V, Citrix o Oracle. Alcuni dispositivi si troveranno nell’hardware della filiale, in particolare perché la virtualizzazione WAN e la WAN definita dal software continuano a guadagnare terreno, sotto forma di apparecchiature locali dei clienti associate esplicitamente alla WAN o, ancora, su un server host di filiali che esegue carichi di lavoro più tradizionali come, ad esempio, un file server. I team IT, dunque, devono occuparsi di monitorare il consumo di tutte queste risorse.

L’SDN può effettivamente andare a competere con i limiti delle CPU impegnate a gestire la pluralità di carichi di lavoro di un data center. A questo proposito, i responsabili IT dovrebbe preoccuparsi di monitorare diverse metriche relative alla CPU, a partire dal suo utilizzo. A tal proposito, è necessario determinare quanto tempo la CPU è impegnata a gestire i carichi di lavoro.

Un altro aspetto importante è quello di monitorare la latenza: quanto tempo i processi attendono per ottenere risorse della CPU? I team IT possono eseguire il drill su molti altri parametri durante la risoluzione dei problemi, ma questi sono gli indicatori principali che possono avvisarli dell’insorgere di un problema.

Come monitorare l’utilizzo della CPU per la SDN

Se i team IT mettono in produzione del software pacchettizzato sui loro switch, gli strumenti di gestione della piattaforma in genere offrono la possibilità di monitorare il consumo delle risorse. L’IT può utilizzare questa funzionalità per monitorare e inviare segnalazioni e informazioni ai manager che lavorano nel NOC (Network Operation Center). Nel caso in cui i team IT stiano implementando soluzioni open source o una piattaforma senza monitoraggio integrato, è possibile trattare gli switch come un altro box Linux e monitorarli analogamente all’host di una macchina virtuale (VM).

Tutto il resto ricade nell’ecosistema che supporta le virtual machine. I team IT possono effettuare il monitoraggio in diversi modi:

utilizzando gli strumenti di monitoraggio della piattaforma di virtualizzazione (ad esempio VMware, Microsoft o Citrix)
utilizzando una suite di gestione generica (ad esempio quella di IBM, CA Technologies, BMC Software, ManageEngine o SolarWinds)
utilizzando strumenti di monitoraggio open source, (ad esempio, Nagios o Zabbix)

Cosa fare quando l’utilizzo della CPU è al limite

Per monitorare l’utilizzo della CPU in ambiente SDN ci sono alcuni parametri da considerare. La media di base dovrebbe essere pari o inferiore al 75%, il che consente di gestire anche alcuni picchi, mentre le latenze dovrebbero essere intorno al 5%, il che significa che i carichi di lavoro non sono in attesa dei cicli della CPU. Un utilizzo prolungato superiore al 90% o le latenze che superano la media del 10% dovrebbero attivare una serie di avvisi.

I team IT devono preoccuparsi sempre di fare un’analisi approfondita delle prestazioni per assicurarsi che i problemi della CPU in ambienti SDN non nascondano altre criticità come, ad esempio, guasti in un’unità di memoria ad accesso casuale dinamico o le eccessive attese per l’I / O. Spesso, tuttavia, lo scoglio è proprio nella CPU o è legato alla contesa per le risorse della CPU.

In un ambiente costituito da switch fisici, i margini di intervento potrebbero essere legati a problemi strutturali con le macchine. Ad esempio, se lo switch si surriscalda e diventa inefficiente, l’IT dovrebbe verificare le metriche relative alla temperatura. Le soglie potrebbero anche indicare che il dispositivo sta facendo troppo o sta facendo fronte a troppo traffico. Se è così, l’IT dovrebbe vedere se lo switch sta gestendo in modo corretto le richieste per cui è stato impostato: nel caso, va sostituito oppure va riprogettato il traffico per ridurre il suo carico di lavoro.

In un ambiente host di macchine virtuali, invece, i team IT possono esaminare i carichi di lavoro separatamente per proteggere le risorse relative ai controller di rete o i dispositivi a supporto del piano dati. Potrebbero anche prendere in considerazione la possibilità di eseguire il provisioning di server host con schede offload di rete che contribuiscono a ridurre drasticamente la quantità di tempo relativo a un utilizzo generico della CPU. Un’altra ipotesi di lavoro suggerita dagli esperti è quella di aggiungere ulteriori risorse in termini di CPU nella SDN per distribuire i carichi su più core.