Training di ChatGPT addestramento di modelli di AI

Analizziamo i modelli di AI generativa, sviluppati abbinando algoritmi di intelligenza artificiale e grandi quantità di dati in un processo di addestramento che spiega la tecnologia alla base di questi strumenti di intelligenza artificiale di nuova generazione

Il modo in cui ChatGPT si presenta all’utente finale è ormai noto persino al grande pubblico, grazie al grande spazio mediatico che questo innovativo strumento ha conquistato negli ultimi mesi. Quella che vediamo quando ci colleghiamo all’indirizzo chat.openai.com dopo esserci registrati al servizio, tuttavia, è solo una parte: un’applicazione per il Web dotata di un’interfaccia utente stile chatbot, quindi conversazionale. Gli sviluppatori di OpenAI hanno realizzato questa modalità di utilizzo per offrire un approccio user friendly a quelle tecnologie che fino ad allora potevano essere utilizzate solo dagli sviluppatori di terze parti per creare applicazioni di vario tipo, quelle che costituiscono il vero ‘cervello’ di ChatGPT. Queste tecnologie, che operano ‘dietro le quinte’ di ChatGPT, sono state sviluppate abbinando algoritmi di intelligenza artificiale e grandi quantità di dati in un processo di addestramento che, una volta descritto, ci permette di capire meglio la tecnologia alla base di questi strumenti di intelligenza artificiale di nuova generazione.

Indice degli argomenti

Il modello “dietro” ChatGPT

Per meglio comprendere il complesso intreccio di dati e algoritmi che alimenta ChatGPT e gli permette di interagire efficacemente con gli utenti finali, è importante chiarire prima di tutto il concetto di ‘modello’ nell’ambito dell’intelligenza artificiale.

Da sempre, il termine ‘modello’ è stato utilizzato per identificare una rappresentazione matematica di qualcosa che fa parte della nostra realtà, come per esempio nei modelli che permettono l’analisi dei dati meteo e le relative previsioni. Nell’ambito dell’intelligenza artificiale i modelli vengono normalmente sviluppati in modo da ottenere una specializzazione in un particolare settore. I modelli GPT-3 e GPT-4, che attualmente permettono a ChatGPT di operare come applicazione ‘conversazionale’ interrogata, sono specializzati nell’ambito del linguaggio naturale, quindi in grado di comprendere e produrre testo.

I Large Language Models (LLM)

GPT-3 e GPT-4 fanno parte dei cosiddetti Large Language Model (LLM), ovvero modelli di AI addestrati su un’enorme quantità di dati e di codice in modo da consentire la comprensione e la creazione di testi in vari ambiti e, appunto, interagire in modo conversazionale rispondendo alle domande dell’utente. Si tratta di modelli ancora in piena evoluzione, ma destinati a cambiare per sempre il modo in cui utilizziamo la tecnologia.

Ne esistono diversi, e fra i più noti possiamo annoverare sicuramente BERT (Bidirectional Encoder Representations from Transformers) e LaMDA (Language Model for Dialogue Applications) di Google e, naturalmente, GPT-3 e GPT-4 di OpenAI, il cui acronimo viene dal termine Generative Pre-trained Transformer e il cui numero finale indica la versione o ‘generazione’ del modello stesso, che in pochi anni ha avuto un’evoluzione decisiva tanto negli algoritmi quanto, come vedremo più avanti, nella quantità e complessità dei dati utilizzati durante il suo addestramento.

I modelli Generative Pre-trained Transformer (GPT)

Per comprendere i modelli GPT ci basta analizzare, uno per uno, i termini alla base dell’acronimo.

L’architettura Transformer, introdotta da Google nel 2017, è costituita da reti neurali progettate per eseguire compiti associati al linguaggio naturale, ovvero algoritmi che le consentono di analizzare il linguaggio e di creare connessioni fra i suoi elementi costitutivi in base a formule matematiche e statistiche, in modo da essere poi in grado di interpretare e generare (da qui il termine Generative) nuovo testo in un modo quanto più simile a quello di un essere umano. Naturalmente lo stesso processo avviene quando, invece del testo, il modello è programmato per gestire altri tipi di dati, come quelli visivi o auditivi, e in particolare le versioni più recenti di questi modelli, come GPT-4 appunto, sono in grado già di analizzare e gestire informazioni relative alle immagini.

Pre-training, addestramento preventivo di ChatGPT

A questo punto non ci rimane che il termine Pre-training, che può essere tradotto come ‘addestramento preventivo’ e indica, infatti, proprio la modalità con cui i modelli GPT sono stati inizialmente allenati per svolgere al meglio i compiti che di solito assegniamo a ChatGPT. Trattandosi di un pre-addestramento, tuttavia, lascia intuire che sia stato seguito da una forma di ‘perfezionamento’.

L’addestramento dei modelli alla base di ChatGPT

Nella fase di pre-addestramento dei modelli GTP che sono alla base di ChatGPT sono stati utilizzati grandi quantità di dati testuali estratti da archivi come quelli di Common Crawl, che per anni ha raccolto il contenuto del Web collezionando petabyte di dati, oppure Wikipedia, Google Books e persino le informazioni scambiate dagli utenti sulla popolare piattaforma Reddit. Oltre 45 miliardi di frasi da milioni di pagine web, oltre 7000 libri e oltre 60 milioni di post e 400 milioni di commenti su Reddit, con un costo fra 10 e 20 milioni di dollari, hanno contribuito all’addestramento iniziale di GPT-3, mentre per la versione successiva e più potente del modello, oggi disponibile assieme alla prima per gli utenti Plus di ChatGPT, non sono stati ancora rivelati particolari a riguardo.

I modelli GPT di OpenAI hanno quindi scansionato, analizzato e organizzato questa gigantesca mole di dati testuali trasformandoli in unità elementari di base detti token, collegando questi ultimi fra loro secondo parametri statistici in modo da valutarne la frequenza e l’abbinamento. Ciò ha permesso loro, già dopo questo primo addestramento, di interpretare e generare del testo usando il linguaggio umano, peraltro in varie lingue dal momento che, appunto, oltre alla maggioranza di dati testuali in lingua inglese il ‘corpus’ dato in pasto all’algoritmo comprendeva anche testi in numerose altre lingue. Non bisogna, tuttavia, fraintendere questa capacità di utilizzo del linguaggio in senso ‘cognitivo’, in quanto l’AI ha imparato, con l’addestramento iniziale, soprattutto a ‘prevedere’ quale elemento di testo può seguire quelli che lo precedono, concatenando il tutto in un output verbale di senso compiuto. Ciò che manca in questa prima fase, tuttavia, è la cosiddetta ‘etichettatura’ dei dati utilizzati, che sarebbe un compito immane per gli sviluppatori e viene in un certo senso affidata alla stessa AI (si parla, in questo caso, di apprendimento non supervisionato o auto-supervisionato).

Per evitare, quindi, che da questo primo addestramento potesse nascere una generazione incontrollata e disarticolata di contenuti testuali, e per aiutare i modelli a interpretare meglio anche l’input degli utenti, al pre-addestramento sono seguite altre fasi in cui tecniche di ‘calibratura’ ancora più sofisticate hanno permesso di perfezionare gli algoritmi con cui i modelli GPT interpretano e generano il linguaggio umano, creando nello stesso tempo dei limiti in grado di evitare quanto più possibile un uso improprio, se non addirittura pericoloso, delle loro capacità conversazionali e generative. Si tratta, in sostanza, di tre fasi principali cui è seguita la cosiddetta ‘valutazione’ del modello di AI.

Il modello SFT (Supervised Fine Tuning)

Mentre, come abbiamo visto, la prima fase di addestramento è stata affidata all’AI, nel primo passaggio di perfezionamento dei suoi algoritmi è stata applicata una ‘calibratura supervisionata’, ovvero la tecnica di machine learning nota appunto col nome di Supervised Fine Tuning (SFT).

I parametri (weights) della rete neurale che si sono formati durante l’addestramento iniziale sono stati impiegati, ancora una volta attraverso una tecnica di machine learning, per ‘inizializzare’ il modello e addestrarlo poi su un set di dati meno vasto e più specifico, dove l’etichettatura è predefinita e non generata, quindi, dalla stessa AI. In questo modo diventa possibile ottenere riscontri più precisi e lavorare su ambiti più ristretti e specializzati del linguaggio e dei contenuti. Alla fase di etichettatura iniziale segue, quindi, quella in cui si cerca di perfezionare il modello su un insieme di dati specifici per il compito che deve svolgere, in modo da ottimizzare le sue prestazioni e la sua accuratezza, tanto nella classificazione del testo (o delle immagini nei casi in cui sia previsto), quanto nell’elaborazione del linguaggio naturale in generale e in compiti come la traduzione o il riconoscimento del parlato.

Il sistema di ricompensa

Al Supervised Fine Tuning viene abbinato, nell’addestramento dei modelli GPT, il cosiddetto sistema o processo di ricompensa (Rewarding Process). Come nell’addestramento di un animale o l’educazione di un essere umano, gli sviluppatori adottano un sistema che permetta al modello di AI di comprendere se, di volta in volta, la sua risposta è quella più corretta, assegnando a quest’ultima una valutazione che faccia, appunto, da ‘ricompensa’ e permetta al modello di identificare sempre meglio la relazione fra il testo della richiesta e quello da generare nella risposta, calibrando così progressivamente le sue modalità di interpretazione e generazione del linguaggio con una sempre maggiore coerenza e riducendo le possibilità di risposte errate.

Il sistema di apprendimento per rinforzo

Al sistema di ricompensa viene abbinato, inoltre, il cosiddetto sistema di ‘apprendimento per rinforzo’ (Reinforcement Learning), una tecnica di apprendimento automatico che si basa sulla premessa che un‘AI impari a prendere decisioni in un ambiente complesso interagendo con esso. Nel caso che stiamo analizzando, l’agente è il modello GPT e l’ambiente è costituito dai dati di addestramento, che dovrà quindi ‘esplorare’ fornendo reazioni appropriate che saranno valutate dagli sviluppatori. L’obiettivo dell’apprendimento per rinforzo è quello di massimizzare la ricompensa (reward) di cui parlavamo prima, ottenuta dall’agente in base al suo ‘comportamento’. In altre parole, l’agente cerca di imparare a prendere decisioni che massimizzino la ricompensa ottenuta.

L’apprendimento per rinforzo viene utilizzato per addestrare i modelli GPT in modo da migliorare la loro capacità di generare testo coerente e significativo, o più precisamente che sia coerente con il contesto e che abbia un senso logico. Ad esempio, se il modello GPT sta generando testo su un argomento specifico, l’apprendimento per rinforzo può essere utilizzato per addestrare il modello a generare testo che sia coerente con quello specifico argomento.

La valutazione del modello

La valutazione del modello (model evaluation) è un processo continuo. Nel caso di GPT-3 e GPT-4, i modelli alla base di ChatGPT, questa valutazione passa attraverso la misurazione della loro capacità di generare testo coerente e di qualità. In particolare, i modelli vengono valutati per mezzo di una serie di task basati sul linguaggio naturale, come la traduzione automatica, la risposta alle domande e la generazione di testo. Una particolare attenzione, inoltre, viene data alla capacità del modello di generare testo coerente e di qualità in base al contesto in cui viene utilizzato. La valutazione del modello è un processo continuo, e viene effettuata regolarmente per garantire che le prestazioni del modello di AI non subiscano un calo, mentre nello stesso tempo si continua a monitorare la qualità del testo prodotto e in particolare l’assenza di errori, bias e altre problematiche tipiche di questo genere di modelli di intelligenza artificiale.

L’addestramento di modelli di AI, conclusioni

Come si può dedurre da quanto abbiamo descritto finora, l’addestramento di modelli di AI come quelli alla base di ChatGPT (e di moltissime altre applicazioni Web attuali e future) non può prescindere da investimenti cospicui e da un lavoro certosino e costante da parte delle aziende e degli sviluppatori, che devono prima di tutto salvaguardare l’efficienza e l’affidabilità dei loro sistemi in un ambito dove la possibilità di interagire in modo ‘naturale e spontaneo’ da parte dell’utente accresce le opportunità di incorrere nella produzione di informazioni non corrette, fuorvianti o addirittura pericolosamente false, e dove gli stessi dati utilizzati nel corso delle ‘conversazioni’ possono riguardare aspetti delicati a livello personale e aziendale.

L’auspicio, per il prossimo futuro, è che sia la stessa AI a fornire nuovi strumenti che aiutino in questi delicati e importanti processi, portando a un sempre maggiore perfezionamento degli stessi e a risultati sempre migliori nel settore.

Training di ChatGPT: come vengono ‘addestrati’ i modelli di AI

Il modello “dietro” ChatGPT

I Large Language Models (LLM)

I modelli Generative Pre-trained Transformer (GPT)

Pre-training, addestramento preventivo di ChatGPT

L’addestramento dei modelli alla base di ChatGPT

Il modello SFT (Supervised Fine Tuning)

Il sistema di ricompensa

Il sistema di apprendimento per rinforzo

La valutazione del modello

L’addestramento di modelli di AI, conclusioni

Articoli correlati

Training di ChatGPT: come vengono ‘addestrati’ i modelli di AI

Il modello “dietro” ChatGPT

I Large Language Models (LLM)

I modelli Generative Pre-trained Transformer (GPT)

Pre-training, addestramento preventivo di ChatGPT

L’addestramento dei modelli alla base di ChatGPT

Il modello SFT (Supervised Fine Tuning)

Il sistema di ricompensa

Il sistema di apprendimento per rinforzo

La valutazione del modello

L’addestramento di modelli di AI, conclusioni

Articoli correlati

AI generativa multimodale: l’evoluzione continua (e prepara la strada alla AGI)

Il nuovo mondo digitale: introduzione ad AR, VR nel mondo industriale

Codice Rss

Codice Rss