Pronto a competere direttamente con ChatGPT, nel mondo, e a sfondare in modo indiscusso, in patria, arriva un nuovo modello multimodale su larga scala tutto completamente cinese. A produrlo è il gigante tecnologico Huawei, presentandolo con il nome ufficiale “PanGu Chat“.
Si tratta di una soluzione sviluppata all’interno del framework di deep learning della stessa azienda, noto come MindSpore, e si basa su un modello cloud su larga scala, dotato di 100 miliardi di parametri. Una cifra notevole, ma che non riesce a superare quelle di GPT-3 di OpenAI, che si dice abbia più di 175 miliardi di parametri, e di GPT-4, che sembra abbia raggiunto addirittura i 1.000 miliardi. Le performance sarebbero però confrontabili e ci sono tutti gli elementi per sperare di assistere a una competizione tecnologica ambiziosa, a beneficio degli utenti e dell’innovazione.
Una scommessa strategica da primato
Secondo quanto finora riferito dall’azienda “madre” di PanGu Chat, sono stati utilizzati più di 2000 chipset Huawei Ascend 910 per oltre due mesi di capacità di training dei dati. Gli analisti del settore hanno poi rivelato che ogni anno l’azienda utilizza oltre 4000 schede GPU/TPU per l’addestramento di modelli su larga scala. Un numero che rivela un deciso impegno in questa direzione, una scelta strategica confermata anche sul piano degli investimenti. In tre anni, infatti, il costo della potenza di calcolo per Huawei avrebbe superato i 960 milioni di yuan.
Ne è valsa la pena, a quanto pare, visto che oggi si può parlare di PanGu Chat come del primo modello cinese pre-addestrato di grandi dimensioni con oltre 100 miliardi di parametri. Grazie alla sua significativa potenza di calcolo e al suo pool di talenti, gli esperti prevedono che in Cina spopolerà, sia tra gli utenti aziendali che governativi. Le uniche due tipologie per cui sarà disponibile, per lo meno inizialmente. L’idea è però quella di impegnarsi nel suo rapido sviluppo, per poterlo veder potenziare la produttività e la competitività di interi settori.
Un tridente di modelli performanti
Guardato con occhio tecnico, il lancio di PanGu presenta degli aspetti interessanti, potenzialmente capaci di innescare a catena delle ulteriori novità nel settore. Prima di tutto va detto che questo modello è un’estensione di quello introdotto nel 2021, la cui versione 2.0 era stata presentata nell’aprile dello scorso anno. L’attuale è “superdotata”, perché comprende anche un modello di elaborazione del linguaggio naturale (NLP) di grandi dimensioni, un modello meteorologico e un modello CV di grandi dimensioni.
Il primo utilizza un’architettura Encoder-Decoder che combina le capacità di comprensione e di generazione, in modo da garantire flessibilità. Può essere messo a punto con dati minimi e parametri semplici e questo aspetto è essenziale perché lo rende rapidamente implementabile in applicazioni come l’intelligent analysis dell’opinione pubblica e il marketing.
Per quanto riguarda il modello meteorologico, PanGu Chat offre previsioni in tempo reale con un livello di precisione molto più elevato di quello a cui ci hanno abituato i metodi tradizionali. Si fa inoltre leva su strutture di rete e algoritmi innovativi per ridurre gli errori, per esempio nella non banale previsione del percorso dei tifoni.
Anche il modello CV di PanGu Chat è degno di nota. Si rivela essere il più grande del settore e si dice in grado di supportare l’estrazione on-demand. Tra le sue più importanti funzionalità vi sono l’ispezione intelligente e la logistica intelligente, erogate con capacità di apprendimento potenziate. Un tentativo che è iniziato su piccoli campioni ma che mira a diventare un riferimento in molti settori.