Non si fa quasi in tempo a misurare le performance dei modelli di intelligenza artificiale generativa messi di mese in mese a disposizione del mercato, che ne esce una nuova versione, senza permetterci di approfondire e riflettere sui risultati ottenuti. Succede quasi sempre così, tranne per alcuni studi che colpiscono particolarmente. Per esempio, perché diventano uno spunto per rivedere iter o abitudini umane, che poco centrano con l’AI, ma plasmano la nostra società.
Tre test giudicanti, ma cosa?
È questo il caso dell’esperimento condotto da un gruppo di ricercatori del Mechanisms of Creative Cognition and Attention Lab. Il loro scopo era quello di esaminare il potenziale creativo a livello umano di GPT-4 e i risultati ottenuti sono stati pubblicati sulla rivista Scientific Reports, per poi fare il giro del mondo. Questo perché dai test condotti dal team, l’AI generativa emerge essere mediamente più creativa delle persone.
Per provare a mettere a confronto il pensiero divergente umano con quello di GPT-4, sono stati coinvolti 151 individui in tre test progettati ad hoc, partendo dal considerare il “divergent thinking” come la capacità di generare una soluzione unica a una domanda che non ha una soluzione prevista.
Il primo, l’Alternative Use Task, propone un oggetto e chiede di immaginarne usi creativi, diversi da quello per cui è stato creato. Nel secondo, il Consequences Task, si invitano i partecipanti a inventare possibili esiti di situazioni ipotetiche mentre per il terzo, il Divergent Associations Task, bisogna pensare a 10 sostantivi il più possibile distanti semanticamente.
A detta dei ricercatori, GPT-4 ha dato risposte più originali ed elaborate rispetto ai partecipanti umani, e anche più fluide… più umane. A logica, quindi, l’AI generativa avrebbe un potenziale creativo superiore in un’intera serie di compiti di pensiero divergente. Ma non è così semplice tirare le conclusioni.
Allucinazioni creative e senso di realtà
Uno dei primi aspetti che provoca perplessità attorno a questi risultati, è la modalità di valutazione delle risposte. Sono state definite più o meno creative in base al loro numero, alla loro lunghezza e alla differenza semantica tra le parole indicate. Nessuno ha badato che fossero o meno anche appropriate, cosa che ha avvantaggiato GPT-4, libero di essere allucinato come la sua natura vuole, mentre in media una persona cerca di dare risposte con un minimo senso del reale. Questo potrebbe aver influenzato molto il livello di creatività dei partecipanti, penalizzandoli rispetto all’intelligenza artificiale generativa che il senso del reale non lo ha minimamente.
In ogni caso, i ricercatori si sono detti ben lontani dal voler dire che GPT-4 sarebbe in grado di sostituire una persona vera nei lavori creativi. Senza un intervento umano, il suo resta un potenziale creativo in un costante stato di stagnazione, in attesa di essere sollecitato.
Misurate con tre test il potenziale creativo, quindi, non implica una valutazione della capacità di raggiungere risultati creativi in generale. I ricercatori mettono chiaramente le mani avanti spostando invece la discussione sulla validità dei test che generalmente si utilizzano per capire quanto una persona abbia o meno un pensiero divergente allenato. E toccano un tasto dolente, ma importante: più che la capacità creativa dell’AI a essere migliore della nostra, forse siamo noi a non aver capito come misurarla. O a illuderci di poterlo fare con un qualche semplice test.