Molti server AI con acceleratori (ad es. GPU) utilizzati per l’addestramento di LLM (large language model) e carichi di lavoro di inferenza generano calore sufficiente da richiedere il raffreddamento a liquido. Questi server sono dotati di tubazioni di ingresso e uscita e richiedono un ecosistema di collettori, CDU (unità di distribuzione del raffreddamento) e sistemi di reiezione del calore all’esterno. Esistono sei architetture comuni di reiezione del calore per il raffreddamento a liquido per le quali forniamo linee guida sulla scelta della migliore opzione per i server AI o il cluster. Schneider Electric ha raccolto le indicazioni per i sistemi di raffreddamento a liquido dei data center nel white paper “Navigating Liquid Cooling Architectures for Data Centerswith AI Workloads”. Eccone una sintesi.
Elementi fondamentali di un’architettura di raffreddamento a liquido
Un’architettura di raffreddamento a liquido può essere fondamentalmente descritta da:
1) Cattura del calore all’interno del server
2) Tipologia di CDU
3) Metodo di reiezione del calore all’esterno.
La cattura del calore avviene mediante un liquido in diretto contatto con i componenti o pompato attraverso piastre fredde. Una CDU isola l’anello di liquido IT (TCS) dal resto del sistema di raffreddamento, svolgendo cinque funzioni chiave: controllo della temperatura, del flusso, della pressione, trattamento del fluido e scambio termico con isolamento. Le CDU sono composte da pompe, scambiatori di calore, sistemi di filtrazione e controlli.
Scegliere l’architettura di raffreddamento a liquido più adatta
La scelta dell’architettura di raffreddamento a liquido più adeguata può essere semplificata in due passaggi:
1) Scegliere il metodo di reiezione del calore
2) Scegliere la capacità e il form factor della CDU.
Il metodo di reiezione del calore può essere: sistema di reiezione esistente (rifiutare il calore nell’aria o nell’acqua dei sistemi dell’edificio), o un sistema di reiezione dedicato e indipendente. La capacità e il form factor della CDU possono essere: rack-mounted (20-80 kW) o floor-mounted (fino a 1 MW). La scelta dipende da fattori come compatibilità dell’infrastruttura esistente, dimensioni della distribuzione, velocità di implementazione ed efficienza energetica.
Rifiutare il calore nell’ambiente IT o in sistemi dedicati
Rifiutare il calore nell’ambiente IT significa progettare l’anello TCS come sistema autocontenuto nello spazio IT, con CDU rack-mounted o floor-mounted che rifiutano calore nell’aria della sala. I vantaggi sono la compatibilità con le infrastrutture esistenti, la facilità di installazione e l’isolamento dei guasti. Gli svantaggi sono l’efficienza ridotta e i costi elevati su larga scala. Un’alternativa è rifiutare il calore nei sistemi idrici dell’edificio tramite scambio liquido-liquido nella CDU. Questo aumenta l’efficienza ma richiede più lavori di installazione. La soluzione più efficiente prevede un nuovo sistema di reiezione del calore dedicato e indipendente per il raffreddamento a liquido.
Unità di distribuzione del refrigerante: tipologie e funzioni
Le CDU sono disponibili in due tipologie principali: rack-mounted e floor-mounted. Le CDU rack-mounted forniscono un anello TCS per un singolo rack, con capacità di 20-40 kW (aria-liquido) o 40-80 kW (liquido-liquido). Le CDU floor-mounted servono più rack, con capacità fino a 60 kW (aria-liquido) o oltre 1 MW (liquido-liquido). Le CDU rack-mounted sono facili da integrare e limitano i guasti a un singolo rack, ma hanno costi più elevati per grandi distribuzioni. Le CDU floor-mounted offrono un minor costo per kW, consentono densità più elevate e hanno un’installazione più rapida su larga scala, ma un singolo guasto può influire su più rack.
Vantaggi e svantaggi delle diverse architetture di raffreddamento a liquido
Rifiutare il calore nell’aria della sala IT è compatibile con le infrastrutture esistenti e veloce da implementare, ma meno efficiente e costoso su larga scala. Rifiutare il calore nei sistemi idrici dell’edificio aumenta l’efficienza ma richiede più lavori. Un sistema di reiezione dedicato è la soluzione più efficiente ma implica un investimento maggiore. Le CDU rack-mounted sono adatte per piccole distribuzioni e veloci da implementare, ma hanno costi più alti per grandi implementazioni. Le CDU floor-mounted hanno un minor costo per kW ma un singolo guasto può influire su più rack. La scelta dipende da fattori come efficienza energetica, velocità di implementazione, scala della distribuzione e compatibilità con le infrastrutture esistenti.