A volte mancano riferimenti su temi di cui nessuno parla, ma può capitare che se ne senta la carenza anche quando di un argomento si parla troppo e non sempre in modo scientifico e oggettivo. È ciò di cui si sono resi conto alcuni ricercatori statunitensi, quando hanno visto che nonostante i modelli di ragionamento matematico in contesti visivi siano al centro dell’attenzione, nessuno ne ha ancora studiato le abilità in maniera sistematica.
Di volta in volta stupiscono, smentiscono le aspettative o le superano, fanno sognare o fanno crollare interi business, ma era giunto il momento di rendere la valutazione delle loro performance più oggettiva e scientifica. Se si desidera infatti affidare loro un servizio o un prodotto critico, come per esempio la guida di un’auto, è assolutamente necessario poter dimostrare che il modello di intelligenza artificiale LLM sia in grado di risolvere correttamente i problemi visivi.
Il terreno di “gara”: 7 ragionamenti e 5 task
Il gruppo di studio, composto da dieci ricercatori dell’Università della California, Los Angeles, dell’Università di Washington e di Microsoft Research, si è focalizzato sulle modalità di gestione della risoluzione di problemi presentata in modelli linguistici di grandi dimensioni che interpretano testi, immagini e anche altre forme di input. Per valutare la loro capacità di eseguire ragionamenti matematici in contesti visivi hanno ideato un benchmark di prova chiamato MathVista, utile per un confronto sia tra modelli che tra ragionamenti. Il team ne ha presi in considerazione sette diversi: ragionamento algebrico, ragionamento aritmetico, ragionamento geometrico, ragionamento logico, senso comune numerico, ragionamento scientifico e ragionamento statistico.
Per spaziare in più casistiche e campi applicativi, ha anche previsto una tassonomia di cinque compiti primari: risposta a domande sulle figure (FQA), risoluzione di problemi di geometria (GPS), problemi di matematica (MWP), risposta a domande sui libri di testo (TQA) e risposta a domande visive (VQA). Per quanto riguarda le immagini ha incluso vari contesti, tra cui immagini naturali, diagrammi geografici, scene astratte, scene sintetiche, oltre a varie figure come grafici e diagrammi.
A partire da 28 set di dati multimodali e da 3 nuovi set di dati chiamati IQTest, FunctionQA e PaperQA, MathVista ha sviluppato 6.141 esempi, iniziando a testare una dozzina di modelli di base.
Tra i più noti i LLM ChatGPT, GPT-4 e Claude-2, i due LMM proprietari (GPT4V e Bard) e sette LMM open-source. Doveroso considerare anche un confronto con le risposte causali e con quelle umane, prendendo come riferimento quelle fornite da Amazon Mechanical Turkers con almeno un diploma di scuola superiore.
GPT-4V va bene, ma non benissimo
Molte domande erano a scelta multipla o con risposta sì/no, ma non era comunque scontato che gli LLM ottenessero risultati migliori rispetto a quelle casuali, come accaduto. Ad alcuni stupisce, ad altri meno, ma ciò che emerso è che GPT-4V di OpenAI è riuscito a superare le prestazioni umane nei ragionamenti algebrici e nelle sfide visive complesse con tabelle e grafici di funzioni. Un successo che convive però con una sconfitta: lo stesso modello è riuscito a correggere solo il 49,9% delle domande.
Si tratta di una performance inferiore a quello dei lavoratori di Amazon Mechanical Turk (60,3%) ma che supera quella del rivale Bard, pari al 34,8%. La soluzione di OpenAI continua a mostrare una migliore percezione visiva e una più precisa capacità di analisi matematica.
Se si vuol leggere in MathVista una sfida tra uomo e macchina… vince ancora l’uomo. I ricercatori infatti, nel complesso, affermano che esiste un divario del 10,4% nell’accuratezza tra LLM e “base umana”: i modelli spesso faticano a comprendere figure complesse e a eseguire ragionamenti rigorosi.
Di fronte a questo esito, alcuni tireranno un sospiro di sollievo, annuendo con un sorriso, altri si rimboccheranno le maniche, pronti a coglierlo come spunto per il miglioramento del proprio modello.
Articolo originariamente pubblicato il 16 Nov 2023