L’evoluzione dell’AI
L’applicazione dell’Intelligenza Artificiale (AI) nel campo della creatività umana è un tema che ha sempre affascinato studiosi e ricercatori. Se ai tempi dei primi esperimenti di Turing e Minsky le capacità di elaborazione dei mainframe erano troppo limitate per poter immaginare di impostare questi tipi di test, la crescita esponenziale della potenza di calcolo offerta dai nuovi hardware ha consentito alle applicazioni AI di aggredire anche le espressioni creative dell’esperienza umana.
GPT-3: l’applicazione alla scrittura
Una delle applicazioni più interessanti è quella relativa alla scrittura, dove primeggia il lavoro portato avanti dal laboratorio di ricerca OpenAI di San Francisco, che ha maturato dopo una lunga evoluzione il progetto GPT-3. GPT-3 (o Generative Pre-Trained Transformer) è un modello di linguaggio che utilizza le reti neuronali per produrre testi scritti indistinguibili da quelli redatti a mano da un uomo. I risultati raggiunti dalla tecnologia GPT-3 sono così di elevata qualità da aver destato l’attenzione delle principali testate giornalistiche, come il New York Times, e aver attirato l’interesse di Microsoft, che si è assicurata l’accesso al modello di apprendimento su cui si basa il progetto.
I modelli GPT si basano su precedenti progetti che utilizzavano l’architettura NLP (Natural Language Processing), una rete neurale creata nel 2017 che simulava il meccanismo impiegato dal cervello umano per processare il linguaggio. Nel 2018 OpenAI ha reso pubblici i risultati dei suoi test basati su impegnativi dataset, che utilizzavano un modello di apprendimento che percorreva trasversalmente un corpus di testi per poi approfondire l’apprendimento in pattern più specializzati.
Il risultato fu un’intelligenza artificiale capace di generare testi di qualità leggibile e coinvolgente, senza che ci fosse bisogno di una supervisione umana per adeguare il risultato finale. Gli ulteriori sviluppi a questa tecnologia apportati da Microsoft con l’introduzione del suo T-NLG (Turing Natural Language Generation) hanno reso l’AI in grado di gestire anche flussi di domande, a cui vengono date risposte pertinenti e in grado di simulare un discorso.
Per rendersi conto di quanto elevato sia il livello dei testi generati da GPT-3, OpenAI ha reso disponibile un Playground dedicato a questa tecnologia, ossia un sito web su cui è possibile “divertirsi” con questa piattaforma di intelligenza artificiale, ponendole richieste e sperimentando in tempo reale la qualità dei risultati elaborati.
Grafica e pittura
Altrettanto, se non di più, è il progresso compiuto dall’intelligenza artificiale nel campo della grafica. La sperimentazione dell’AI nel campo grafico trova le sue radici nella ricerca universitaria e nello sviluppo dei programmi di disegno digitali vettoriali e di foto ritocco, ma è con l’avvento delle possibilità offerte dalle reti neurali che la sua applicazione compie un significativo balzo qualitativo. Grazie a tecnologie come Tensor, infatti, si sviluppano le ricerche sulle reti generative che permettono di gestire pattern di apprendimento che richiedono elevate capacità di calcolo. Uno dei culmini più entusiasmanti di questo percorso è la tecnologia DALL-E, sempre dei laboratori OpenAI. Soprattutto nella sua versione 2, l’utilizzo di DALL-E 2 si rivela un’esperienza toccante. Al momento della scrittura di questo articolo, per accedere alle sue funzionalità è necessario iscriversi a una lista di attesa, un po’ come era successo per gli astronomi al tempo del lancio del telescopio Hubble.
Il paragone non è eccessivo: DALL-E 2 è una tale milestone nell’evoluzione dell’impiego dell’AI nella grafica, che, sia per motivi di consumo di capacità di calcolo, sia per l’impatto culturale, OpenAI ha ritenuto opportuno filtrarne l’accesso iniziale. Se volete rendervi conto delle capacità della tecnologia, su You Tube sono disponibili numerosi video che lasciano a bocca aperta. La caratteristica che immediatamente colpisce di DALL-E 2 è l’interfaccia utente: al posto di complessi linguaggi di programmazione, all’utente DALL-E 2 chiede semplicemente di descrivere con parole comuni la scena che desidera vedere attualizzata nel render.
Una volta immessa la descrizione, DALL-E 2 produce un array di immagini che interpretano le indicazioni scritte dell’utente. Il realismo delle immagini è così di elevata qualità che OpenAI ha dovuto addirittura introdurre dei meccanismi di censura sui testi digitabili per evitare la generazione di rendering contrari al buon senso. Alcuni ricercatori recentemente stanno sperimentando l’applicazione di questa tecnologia anche all’animazione e alla regia cinematografica, e recentemente è stato prodotto il primo cortometraggio interamente realizzato da una AI.
Mentre DALL-E 2 richiede capacità di calcolo non accessibili a tutti gli utenti, ci sono anche altre tecnologie applicate alla grafica il cui consumo di risorse computazionali non è così proibitivo. Una di queste tecnologie è la rete GAN. GAN è l’acronimo di Generative Adversarial Network, ossia una rete neurale che apprende mediante la distinzione tra flussi di input corretti e non validi. Il sistema è basato sul concetto di gioco a somma zero, applicato per la prima volta nel campo dell’AI da Ian Goodfellow, e in seguito implementato da Nvidia sulle sue GPU, che ha dimostrato in alcuni demo passati alla storia la capacità di questa tecnologia di produrre volti umani estremamente realistici. Le capacità computazionali richieste da questo modello di apprendimento, pur essendo intensive, sono gestibili con soluzioni scalabili sia su cloud sia on premise, e si rivelano di più facile implementazione anche per progetti caratterizzati da budget non eccessivi.