La corsa allo sviluppo e all’implementazione dell’AI generativa (GenAI) non sta rallentando; infatti, la crescita dei livelli di energia necessari per alimentarla raddoppia ogni 100 giorni, secondo un recente documento di ricerca.
Lo sviluppo di modelli di GenAI è incredibilmente dispendioso in termini di energia e determina non solo un fabbisogno esponenziale di potenza, ma anche un aumento della densità di calcolo necessaria. I data center consumano già fino al 2% dell’elettricità globale secondo l’ AIEA, l’Agenzia internazionale dell’energia, e questa percentuale è destinata a crescere.
La GenAI richiede hardware sempre più “energivoro”, e di conseguenza c’è una crescente domanda di nuovi modi per gestire il calore proveniente dalle unità di elaborazione grafica (GPU) che alimentano la rivoluzione della GenAI.
Ogni query in ChatGPT richiede quasi 10 volte più energia di una ricerca su Google, secondo le stime di Goldman Sachs. Questo sta aumentando la domanda e richiede nuove idee sull’uso dell’energia, in particolare per quanto riguarda il modo in cui i data center vengono raffreddati.
Il tradizionale raffreddamento ad aria si è rivelato inefficiente e, in un’epoca in cui ogni imprenditore ha a cuore la sostenibilità, il fatto che il raffreddamento a liquido possa ridurre il consumo energetico fino al 40% lo rende un modo semplice per ridurre le emissioni di carbonio.
La fame di potenza di elaborazione
Le unità di elaborazione grafica (GPU) ad alta intensità energetica che alimentano le piattaforme di AI richiedono da 5 a 10 volte più energia rispetto alle unità di elaborazione centrale (CPU), a causa del numero maggiore di transistor.
Questo sta già avendo un impatto sui data center. Esistono anche nuove metodologie di progettazione a costi ridotti che prevedono funzionalità come l’impilamento del silicio 3D, che consente ai produttori di GPU di racchiudere più componenti in un ingombro ridotto. Questo aumenta ulteriormente la densità di potenza, il che significa che i data center richiedono più energia e generano più calore.
Un’altra tendenza che si sta sviluppando in parallelo è un calo costante della TCase (temperatura del case) nei chip più recenti. La TCase è la temperatura massima di sicurezza per la superficie di chip come le GPU. È un limite fissato dal produttore per garantire che il chip funzioni senza problemi e non si surriscaldi o richieda una limitazione che influisca sulle prestazioni.
Sui chip più recenti, il T Case sta scendendo da 90 a 100 gradi Celsius a 70 o 80 gradi, o anche meno. Ciò sta ulteriormente alimentando la richiesta di nuove modalità per raffreddare le GPU.
Come risultato di questi fattori, il raffreddamento ad aria non è più efficiente quando si tratta di AI. Il fattore determinante non è solo la potenza dei componenti, ma la densità di tali componenti nel data center.
A meno che i server non diventino tre volte più grandi di prima, è necessaria un’efficiente rimozione del calore. Questo richiede una gestione speciale e il raffreddamento a liquido sarà essenziale per supportare la diffusione mainstream dell’AI.
I vantaggi del raffreddamento a liquido
Il raffreddamento a liquido offre significativi risultati sia all’interno dei singoli server che nei data center più grandi. Passando da un server con ventole a un server con raffreddamento a liquido, le aziende possono ridurre significativamente il consumo energetico. Questo avviene solo a livello di dispositivo, mentre il raffreddamento perimetrale, che rimuove il calore dal data center, richiede più energia per raffreddare e rimuovere il calore. Questo significa che solo due terzi dell’energia utilizzata dal data center è destinata all’elaborazione, il compito per cui il data center è stato progettato. Il resto viene utilizzato per raffreddare il data center.
Qui entra in gioco l‘efficienza dell’utilizzo dell’energia (PUE), una misura dell’efficienza dei data center. Per misurare questo fattore, si calcola la potenza necessaria per il funzionamento dell’intero data center (compresa quella necessaria per i sistemi di raffreddamento) e poi si divide per i requisiti di alimentazione delle apparecchiature IT.
Nel caso di data center ottimizzati a liquido, alcuni raggiungono un PUE di 1,1 e altri addirittura di 1,04, ovvero consumano una quantità molto piccola di energia marginale. Questo senza considerare l’opportunità di raccogliere il liquido o l’acqua calda che fuoriesce dai rack e riutilizzare quel calore per qualcosa di utile, come riscaldare l’edificio in inverno, cosa che alcune aziende stanno già facendo.
Anche la densità è molto importante. Il raffreddamento a liquido consente di collocare molte apparecchiature in un’alta densità di rack. Con il raffreddamento a liquido, possiamo popolare quei rack e utilizzare meno spazio nel data center in generale, minore necessità di costruire nuovi edifici e questo sarà molto importante per l’AI.
I centri di ricerca pionieri del raffreddamento a liquido
Il raffreddamento a liquido si sta diffondendo molto velocemente in tutti i settori ma gli istituti di ricerca pubblici sono stati tra i primi utenti, perché di solito richiedono le più recenti e più avanzate tecnologie per i data center per guidare l’High Performance Computing (HPC) e l’AI. E tuttavia, tendono ad avere meno timori riguardo al rischio di adottare una nuova tecnologia prima che si sia già affermata sul mercato.
Le aziende invece sono più avverse al rischio. Devono assicurarsi che le soluzioni implementate forniscano un rapido ritorno sull’investimento. Stiamo assistendo all’adozione di questa tecnologia da parte di un numero sempre maggiore di istituzioni finanziarie, spesso conservatrici a causa dei requisiti normativi, insieme all’industria automobilistica.
In questo settore vi sono grandi utilizzatori di sistemi HPC per sviluppare nuove automobili, come lo sono anche i fornitori di servizi nei data center di colocation. La GenAI ha enormi requisiti in termini di potenza di elaborazione che la maggior parte delle aziende non è in grado di soddisfare all’interno dei propri locali, quindi devono rivolgersi a un data center di colocation, a fornitori di servizi in grado di fornire tali risorse computazionali. Questi fornitori di servizi stanno ora migrando a nuove architetture GPU e al raffreddamento a liquido. Se implementano il raffreddamento a liquido, possono essere molto più efficienti nelle loro attività.
I casi di eccellenza in Italia
In Italia tutti i progetti legati al supercalcolo attualmente in corso nei principali centri di ricerca a cui sta lavorando Lenovo si basano su ambienti con raffreddamento a liquido, con tecnologia Neptune. Dal CMCC di Lecce, che studia gli effetti del cambiamento climatico, all’Università di Pisa, che ha portato a 104 i rack presenti nel sito per lavorare su tecnologie come quantum computing e AI, al polo ENEA di Portici, che utilizza il sistema HPC di Lenovo per dare ulteriore impulso alle attività di ricerca sulle energie pulite.
Recentissimo è l’annuncio della collaborazione di Lenovo con il Cineca che prevede entro il 2024 l’installazione al Tecnopolo di Bologna di Pitagora, il supercalcolatore destinato alla ricerca sull’energia da fusione, quarto sistema per potenza di calcolo in Italia, e in grado di effettuare circa 27 milioni di miliardi di operazioni al secondo.
Verso un data center “più pulito”
La domanda di energia della GenAI non è destinata a diminuire e i sistemi raffreddati a liquido offrono un modo per fornire la densità energetica richiesta dall’Ai e questo consente alle aziende di ridurre il consumo di energia e ai data center di ospitare il numero di GPU necessario per promuovere l’innovazione di domani. Per fronteggiare il crescente fabbisogno energetico legato all’utilizzo della GenAI, il raffreddamento ad aria non è più sufficiente.