Il gruppo di ricerca AI di Snowflake, in sinergia con la comunità open source, ha introdotto una nuova piattaforma applicativa open source per agevolare l’inferenza e il fine-tuning, progettata per gestire modelli LLM che possono includere centinaia di miliardi di parametri, come Llama 3.1 405B. Snowflake, AI Data Cloud company, ha reso noto che renderà disponibile nella sua piattaforma Snowflake Cortex AI la biblioteca multilingue open source di Large Language Model (LLM), Llama 3.1, facilitando così per le imprese lo sviluppo e l’utilizzo di applicazioni efficaci in contesti Enterprise. Questa iniziativa comprende il più grande e avanzato LLM open source di Meta, il Llama 3.1 405B. In questo ambito, Snowflake ha curato lo sviluppo e la pubblicazione del sistema di inferenza come open source per permetterne l’uso in tempo reale e promuovere ulteriormente le potenti applicazioni del linguaggio generativo.
Llama 3.1 405B ottimizzato per inferenza e fine tuning
Il gruppo di ricerca AI di Snowflake ha ottimizzato il modello Llama 3.1 405B sia per l’inferenza che per il fine-tuning, offrendo supporto a una vasta “context window” da 128K sin dal lancio e garantendo un’inferenza in tempo reale con una latenza fino a tre volte inferiore e un throughput migliorato del 40% rispetto alle alternative open source esistenti. Inoltre, permette il fine-tuning del modello su un singolo nodo GPU direttamente all’interno di Cortex AI, eliminando costi superflui per sviluppatori e clienti. Con la collaborazione di Meta, Snowflake fornisce alle aziende clienti un accesso semplice ed efficiente ai modelli più recenti di Meta nell’AI Data Cloud, assicurando un approccio integrato alla sicurezza fin dalle fondamenta.
“Il nostro team di ricerca AI è impegnato a delineare un percorso affinché le imprese e la comunità open source possano sfruttare i modelli aperti più sofisticati come Llama 3.1 405B per l’inferenza e il fine-tuning al fine di ottimizzare l’efficienza”, dichiara Vivek Raghunathan, VP of AI Engineering presso Snowflake.
“Non ci limitiamo a fornire ai nostri clienti la tecnologia avanzata di Meta tramite Snowflake Cortex AI; stiamo anche assistendo le aziende e la comunità AI attraverso nuove ricerche e codici open source che supportano context window da 128K, inferenze multi-nodo, pipeline parallele, quantizzazione floating point a 8 bit e altro ancora per promuovere l’AI in un contesto sempre più ampio”.
Massive LLM Inference and Fine-Tuning System Optimization Stack
Il gruppo dedicato alla ricerca AI presso Snowflake sta stabilendo nuovi standard nel campo dell’inferenza veloce ed efficiente dal punto di vista della memoria attraverso contributi continui alla comunità AI e mantenendo trasparenza sullo sviluppo delle tecnologie LLM all’avanguardia. Con il lancio del Llama 3.1 405B hanno ora reso disponibile come open source il loro sistema ottimizzato Massive LLM Inference and Fine-Tuning System Optimization Stack in collaborazione con DeepSpeed, Hugging Face,vLLM,e altri membri della community AI. Le dimensioni elevate dei modelli e i relativi requisiti di memoria rappresentano una sfida notevole quando si cerca un’inferenza a bassa latenza adatta alle applicazioni real-time o quando si richiede un alto throughput o supporto prolungato nelle applicazioni enterprise dell’intelligenza artificiale generativa; queste necessità comportano anche oneri economici significativi.
Le esigenze di memoria legate alla conservazione dei modelli aumentano ulteriormente i costi mentre i grandi cluster GPU necessari all’adattamento degli stati dei modelli sono spesso fuori portata per molti data scientist. L’ottimizzazione del sistema Massive LLM Inference and Fine-Tuning proposta da Snowflake affronta tutte queste problematiche utilizzando tecniche avanzate quali elaborazione parallela e ottimizzazione della memoria che consentono una progettazione rapida ed efficiente dell’AI senza richiedere infrastrutture complesse o dispendiose.
Un’intelligenza artificiale affidabile, responsabile e sicura
Nel caso specifico del modello Llama 3.1 405B,l’infrastruttura proposta da Snowflake offre prestazioni real-time ad alta efficienza su singoli nodi GPU, supportando context window estremamente ampie fino a configurazioni multi-nodo. Questa versatilità è estesa sia all’hardware moderno sia quello preesistente, facilitando così l’accessibilità da parte delle aziende. Inoltre, i data scientist possono effettuare tuning su meno GPU usando tecniche mixed precision, evitando così la necessità dei grandi cluster GPU. Di conseguenza, gli enti possono adattare e implementare potenti applicazioni d’intelligenza artificiale generativa enterprise con semplicità, economicità e sicurezza. In aggiunta, Snowflake ha sviluppato anche infrastrutture ottimizzate specificatamente per il fine-tuning che includono differenziazione dei modelli, misure di sicurezza, retrieval augmented generation (RAG)e generazione dati sintetici, in modo tale che le aziende possano facilmente implementare questi casi d’uso all’interno della piattaforma Cortex AI.
Snowflake Cortex AI rafforza quindi l’impegno verso un’intelligenza artificiale affidabile, responsabile e sicura. La sicurezza nell’utilizzo dell’A.I è prioritaria per Snowflake e i suoi clienti. Per questo motivo, Snowflake sta rendendo disponibile Snowflake Cortex Guard al fine di proteggere qualsiasi applicazione o risorsa costruita su Cortex A.I dai contenuti dannosi – sia utilizzando gli ultimi modelli proposti da Meta, sia gli altri LLM offerti dai principali fornitori nel settore tra cui.AI21 Labs Google, Mistral A.I., Reka e lo stesso Snowflake. Cortex Guard si avvale della tecnologia Lama Guard2 sviluppata da Meta garantendo così affidabilità nelle soluzioni A.I. proposte alle imprese.