Con l’AI generativa cambiano infrastruttura cloud, on-premise ed edge

Il rapido trend di espansione della AI generativa (GenAI) aumenta la pressione a livello infrastrutturale per gli hyperscaler, e porta anche le varie organizzazioni a riconsiderare, in funzione dei diversi casi d’uso aziendali, la convenienza del modello cloud rispetto al paradigma on-premise.

La GenAI, stando alle stime di Bloomberg Intelligence, svilupperà un mercato da 1.300 miliardi di dollari entro il 2032. L’esplosione della GenAI accelererà di conseguenza la domanda di server con maggior potenza di elaborazione: in particolare, a livello di semiconduttori, aumenterà la richiesta di chip specializzati per l’esecuzione dei workload di intelligenza artificiale, come le GPU (graphics processing unit), componenti fondamentali del calcolo parallelo.

I ricavi della AI generativa (fonte: Bloomberg Intellligence, IDC)

Gli imponenti requisiti di elaborazione parallela richiesti per il training dei modelli linguistici di grandi dimensioni (LLM – Large Language Models) utilizzati dalla GenAI starebbero in effetti inducendo gli ambienti data center ad accentuare la transizione, dalle classiche CPU (Central Processing Unit) general-purpose, verso le GPU. Lo sottolinea un articolo pubblicato dal gestore azionario ClearBridge Investments, citando alcuni dati J.P. Morgan, secondo cui, il segmento dei server ‘general-purpose’ risulterebbe oggi basato per il 60% su CPU, mentre quello dei server AI utilizzerebbe ormai per il 75% GPU.

Indice degli argomenti

Ottimizzare l’infrastruttura per la AI: in aumento gli investimenti nei data center

L’elaborazione di applicazioni AI su larga scala mette a dura prova l’infrastruttura cloud tradizionale, non espressamente progettata per questi carichi di lavoro, spingendo gli hyperscaler a evolvere i propri sistemi. Gli investimenti in infrastrutture AI, rileva un report pubblicato da Dell’Oro Group, porteranno le spese in conto capitale (capex) dei data center a oltre 500 miliardi di dollari entro il 2027.

“Le imminenti transizioni tecnologiche stimoleranno la crescita a lungo termine” ha dichiara Baron Fung, senior research director di Dall’Oro Group, precisando che “soprattutto, i cloud service provider hyperscale daranno priorità ai propri investimenti verso sistemi accelerati per applicazioni AI, sia per quanto riguarda le loro piattaforme cloud pubbliche, sia per le offerte SaaS. Assisteremo a un’ottimizzazione continua lungo l’intero stack infrastrutturale del data center, con l’implementazione di server di ultima generazione caratterizzati da elevato numero di core di elaborazione e da più ampia memoria, connessi a reti di nuova concezione. Nel frattempo, il resto del mercato investirà in sistemi accelerati in maniera più selettiva, con la maggior parte delle imprese che adotterà una strategia di cloud ibrido”.

Workload AI, articolare la scelta tra cloud e on-premise

Mentre, da un lato, gli hyperscaler rafforzano le proprie infrastrutture cloud per supportare l’elaborazione dei workload AI, dall’altro, per le imprese, il cloud ibrido, in grado di orchestrare tra loro risorse on-premise, servizi cloud privati e pubblici, emerge evidentemente come la strategia più conveniente.

Il tutto avviene in un contesto imprenditoriale in cui molte organizzazioni risultano ancora impreparate a gestire la transizione infrastrutturale verso la GenAI, come indica un sondaggio condotto da Edelman Data & Intelligence e commissionato da AMD, interpellando a livello globale 2.500 decisori IT. Pur riconoscendo il potenziale impatto delle soluzioni AI-powered in azienda, il 52% dei responsabili IT risponde che la propria organizzazione non possiede l’infrastruttura necessaria per gestire in maniera efficace i workload AI. Le preoccupazioni maggiori sono la consapevolezza di avere un’infrastruttura obsoleta da integrare nei sistemi esistenti, e l’hardware richiesto per accelerarla.

La transizione verso il cloud non rappresenterebbe comunque la panacea di tutti i mali, soprattutto per gli elevati costi connessi a un uso intensivo dei servizi. A questo punto, l’alternativa del deployment on-premise potrebbe ritornare appetibile per le imprese. Nell’ottica di intercettare questa potenziale domanda, ad esempio, Dell Technologies e NVIDIA hanno annunciato lo scorso maggio un’iniziativa congiunta, il progetto Helix, per semplificare per le aziende la creazione e l’uso di modelli di AI generativa on-premise.

Al di là dei particolari requisiti di sicurezza, privacy, elaborazione real-time che possono spingere un’impresa a scegliere per i workload AI un’implementazione on-premise, va comunque sottolineato che un altro fattore determinante è la cosiddetta “data gravity”: in altre parole, se la maggior parte dei dataset per il training della AI risiedesse ancora on-premise, potrebbe risultare complesso e costoso spostarli nel cloud, e di conseguenza la tendenza sarebbe optare per una implementazione dell’infrastruttura AI in house.

Hardware dedicato per cloud AI ed edgeAI

Per supportare l’intero ciclo di elaborazione dei workload di GenAI, nei data center lo stack infrastrutturale necessiterà di ottimizzazioni hardware differenti a diversi livelli. È bene ricordare che, in maniera analoga alle classiche applicazioni AI, i workload di AI generativa richiedono notevole potenza di calcolo in due fondamentali fasi di elaborazione. La prima è il training del LLM: la fase di addestramento del modello esige enorme capacità computazionale per apprendere da giganteschi dataset, ed è implementabile dispiegando reti neurali alimentate da cluster HPC (High Performance Computing) basati su GPU o altri processori multi-core.

La seconda fase è l’inferenza, ed è il processo che usa il modello addestrato per trarre conclusioni, fornire risultati, eseguire azioni. L’inferenza richiede tipicamente minori risorse computazionali rispetto al training, sia quando è eseguita a livello di data center tradizionale o centralizzato nella nuvola informatica (cloud data center), sia quando viene gestita dagli apparati o dispositivi smart installati a livello di infrastruttura edge.

La edge AI ha lo scopo di soddisfare un numero crescente di casi d’uso in cui l’applicazione deve rispondere in tempo reale minimizzando la latenza: è il caso, ad esempio, delle applicazioni di visione artificiale, basate su deep learning (DL), per il controllo delle linee di produzione, dove l’inferenza viene eseguita direttamente a livello dei dispositivi locali (telecamere), ad esempio per ispezionare in real-time la qualità del prodotto.

L’hardware per edge AI ha requisiti differenti rispetto a quello dedicato ai grandi data center. Ad esempio, gli acceleratori AI specializzati per dispositivi edge (edge AI accelerators) indirizzati ad applicazioni embedded ed ambienti industriali, oltre a rispondere a dati requisiti di performance ed efficienza energetica, devono rispettare anche specifici vincoli termici, d’ingombro, peso, costi. E qui le GPU, dato l’elevato numero di core e i consumi di energia, non sempre possono rappresentare la soluzione migliore, soprattutto se paragonata ai chip ASIC (Application-Specific Integrated Circuit), in grado di fornire elevate prestazioni e bassi consumi, anche se svantaggiosi sotto altri aspetti tecnici e di business. Altre alternative, a seconda dei requisiti di progetto, possono essere rappresentate da semiconduttori come gli FPGA (Field-Programmable Gate Array) o i DSP (Digital Signal Processor).