Cosa è accaduto nel mondo dell’AI dell’Artificial Intelligence (AI) nell’anno appena trascorso che ha visto come protagonista il Covid? Secondo il suggerimento di Manuel Roveri, Responsabile della Ricerca, Osservatorio Artificial Intelligence del Politecnico di Milano, può essere utile utilizzare come indicatore quanto accaduto a NeurIPS (Neural Information Processing Systems Foundation), la principale conferenza internazionale in ambito AI, svoltasi a dicembre 2020 in formato virtuale. Da questo osservatorio sembra che il mondo dell’AI abbia manifestato un elevato grado di resilienza nonostante la pandemia.
Il numero di lavori presentati ha mantenuto il trend positivo degli anni precedenti con una crescita numerica del 40% anno su anno (9454 nel 2020) e una percentuale costante (20%) dei lavori accettati (1900 nel 2020) . Non sorprende che al primo posto per numero di lavori ci siano gli USA (con 1186 paper, oltre la metà di quelli accettati), seguiti dalla Cina, con 259 lavori, che precede la gran Bretagna, in terza posizione con 205. Il resto del mondo segue a una certa distanza, con l’Italia in 14-esima posizione (con 22 lavori) e con una bella sorpresa che di seguito sveleremo. Va precisato che, a parte USA e Cina che presentano molti paper di imprese, le pubblicazioni degli altri paesi sono soprattutto di origine accademica.
Per capire le tendenze è interessante analizzare l’andamento dei temi dei lavori presentati; le voci più popolari restano gli algoritmi (che rappresentano quasi il 30%), deep learning e applicazioni (quasi il 20% ciascuno in contrazione). Una novità riguarda l’introduzione della voce “Social Aspects of Machine Learning”, con temi come correttezza e privacy, che fino al 2019 rientrava sotto la voce algoritmi. Le percentuali dei temi dei paper accettati seguono però un andamento, molto diverso da quelli presentati come evidenzia la figura.
NeurIPS: tre eventi da prendere in considerazione
Per districarci nell’analisi di quanto è accaduto di significativo ci affidiamo ai suggerimenti del Responsabile della Ricerca dell’Osservatorio Artificial Intelligence che segnala tre eventi che in qualche modo si incrociano a NeurIPS.
Il primo è l’assegnazione del best paper award NeurIPS 2020 al Politecnico di Milano, per il suo contributo, considerato cruciale per la risoluzione di problemi decisionali sequenziali tra agenti razionali, presentato nel paper “No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium”.
“È un evento certamente importante per il Politecnico ma anche per l’Italia visto che prima nessuno aveva vinto un best paper award”, è il commento di Roveri.
Il secondo evento che ha portato un avanzamento della tecnologia, ma forse passato sotto traccia, è la presentazione del Chip M1 di Apple. Non solo è il primo chip basato su AMD a 5 nanometri ma esprime un paradigma diverso rispetto a quello utilizzato da Apple fino ad oggi. “Sappiamo che il Machine deep Learning deve lavorare su grandi quantità di dati e ha bisogno di tanta computazione, ottenuta finora andando ad aggiungere le CPU necessarie per l’elaborazione – spiega – Apple ha trovato una strada differente: invece di aumentare le CPU general purpose ha introdotto coprocessori matematici, capaci di eseguire un set limitato di istruzioni ma in modo molto veloce”. L’architettura è basata su 4 core ad alte prestazioni ed alta efficienza energetica, una CPU integrata e un neural engine, ossia il co-processore matematico di cui sopra. A completare il quadro si aggiunge la RAM condivisa che permette di risolvere uno dei colli di bottiglia nell’ambito dell’elaborazione che consiste nel trasferimento dati dalla RAM alle memorie della CPU e dei chip neurali. Ecco dunque un chip neurale, in grado di fornire prestazioni in linea con le CPU dedicate ma con consumi energetici molto più bassi.
Fin qui l’hardware. Ma per sfruttare al meglio le prestazioni è stato necessario aggiornare TensorFlow, uno dei principali framework in ambito Machine learning (ML) presenti nella comunità scientifica. “Questa è proprio la posizione portata avanti dall’Osservatorio negli ultimi anni: per poter progettare un sistema efficace non è sufficiente disporre di un hardware veloce e di algoritmi efficienti ma serve la coprogettazione di hardware pensato per l’AI, di software di ambiente per AI (framework, piattaforme e tool), e applicazioni per AI”, sottolinea Roveri.
E, guarda caso, anche se il chip M1 era stato annunciato a novembre, Apple ha presentato nel corso della conferenza NeurIPS di dicenbre 2020 il talk “Accelerated Training with ML Compute on M1-Powered Mac”.
Il terzo evento da prendere in considerazione riguarda GPT-3 (Generative Pre-trained Transformer 3) un modello di linguaggio di OpenAI passato da una conoscenza ristretta alla comunità scientifica al clamore del grande pubblico quando a settembre è stato pubblicato su The Guardian un articolo interamente scritto da AI. A GPT-3 è stato chiesto di scrivere un articolo sul perché gli umani non devono avere paura di GPT-3 con un incipit scritto dai giornalisti. L’algoritmo ha prodotto 8 articoli fra cui la redazione ne ha scelto uno: “A robot wrote this entire article. Are you scared yet, human?”.
È interessante ricordare che i ricercatori di OpenAI hanno presentato a NeurIPS 2020 il lavoro “Language Models are Few-Shot Learners” che ha ottenuto uno dei tre best paper award.
Come spiega Roveri GPT-3 è un language model basato su un concetto auto-regressivo dotato di 175 miliardi di parametri, pensato per fare traduzioni, Q&A, risolvere parole in testi mancanti e può creare articoli, prosa, poesia, dialoghi meme, codice per il computer…
Con GPT-3 si può avere un’interazione attraverso esempi e richieste in formato testuale come ha fatto The Guardian. Serve dunque sempre un input umano.
Tre provocazioni, a partire dal caso GPT-3
Il grandissimo clamore provocato da GPT3 ha generato molti entusiasti (questi sostengono che siamo ormai arrivati all’AI generale) e altrettanti scettici che considerano in GPT-3 uno dei tanti modelli, solo un po’ più complesso. Ancora Roveri ci offre le sue interpretazioni, condite con un po’ di provocazione.
- Il modello GPT-3 non rappresenta l’AI generale, ma un language model, basato su una distribuzione di probabilità sulle parole, addestrato su testi prodotti da milioni di persone. Per dare un’idea Wikipedia rappresenta appena il 3% del training set su cui è stato addestrato.
- Il codice GPT – 3 non viene rilasciato perché considerato troppo pericoloso, in particolare per la possibilità di generare fake news. Significativo un antefatto che fece clamore nel 2015: tre studenti del MIT avevano sviluppato un software per la generazione di fake paper scientifici; uno di questi fu sottomesso e accettato in una conferenza scientifica internazionale, con un certo scandalo. La comunità scientifica ha poi generato, a sua volta, un software per riconoscere i fake di lavori scientifici generati automaticamente… Ci dobbiamo aspettare prossimamente un algoritmo capace di rivelare i testi scritti da un robot?
- La complessità della rete per addestrare i nuovi modelli è tale che per farlo su una buona GPU avremmo bisogno di 355 anni di computazione o servirebbe un budget di 4,6 milioni di dollari per farlo su cloud. “In futuro chi potrà addestrare queste reti? Solo le big five? Siamo attivati al punto di singolarità per il mondo della ricerca accademica per questo tipo di reti? Riusciremo a validarle o diventeremo solo utilizzatori?”. Per ora non ci sono risposte certe a queste domande.
Roveri chiude con una citazione da Sam Altman, Ceo di OpenAI, che riassume i dubbi e che liberamente traduciamo: “L’hype generato da GPT-3 è decisamente eccessivo. Certo è impressionante ma ancora ha molte serie debolezze e talvolta fa errori stupidi. L’Ai cambierà il mondo ma quella di offerta da GPT-3 ne da solo un’idea molto iniziale”. Questa frase sarà stata scritta da Altman o dallo stesso GPT-3?