Sembra pervaderci un senso di onnipotenza di fronte a ciò che siamo in grado di realizzare con testi e immagini, grazie all’intelligenza artificiale. I large language model (LLM) rispondono a qualsiasi domanda e creano testi a nostro piacimento. I programmi text-to-image realizzano fotografie o illustrazioni meglio di quanto ci si possa immaginare scrivendo il prompt. Quando una rete neurale artificiale è ben addestrata, con un’enorme mole di dati, il risultato è la libertà di poter spaziare con le pretese in modo quasi illimitato. Un “vizio” a cui ci stiamo tutti abituando, un paradigma che i ricercatori vogliono traslare anche nella robotica.
Per via delle peculiari caratteristiche del settore, non si può propriamente fare un “lift and shift”, è necessario un profondo processo di condivisione ed esplorazione. Ma non è detto che sia un obiettivo irrealizzabile, sicuramente è un obiettivo entusiasmante. Nella pratica, si tratterebbe di ottenere un robot “tuttofare” nel senso letterale del termine.
Al via il progetto RT-X
Il primo scoglio contro cui ci si scontra è la carenza di informazioni sulle interazioni robotiche in Internet. Non è facile reperirne, sono dati più rari di testi e immagini e solitamente frutto di imponenti lavori di ricerca in laboratorio, non immediati da ottenere. Sono il patrimonio essenziale per partire con la realizzazione di un robot general purpose, però, ed è per questo che il primo passo da compiere per poter usufruire delle esperienze di molti robot e permettere a un nuovo robot di imparare tutto contemporaneamente, è quello di unire le forze.
È ciò che è accaduto pochi mesi fa, presso i laboratori di Google e dell’Università della California. Ispirati dal paradigma dell’AI generativa, oltre 30 laboratori di robotica in Nord America, Europa e Asia hanno avviato il progetto RT-X. Il nome “in codice” per indicare un lavoro di assemblaggio di dati, risorse e codice necessario a rendere i robot generici una realtà.
Finalmente un benchmark che “unisce” i ricercatori
Lasciando che ogni laboratorio coinvolto facesse confluire il proprio patrimonio informativo nel dataset RT-X, finora si è arrivati a quasi un milione di prove robotiche. Riguardano soprattutto i bracci robotici più diffusi sul mercato, ne considerano 22 tipologie e spaziano tra 500 abilità diverse e interazioni con migliaia di oggetti diversi. È un primato open source da coltivare e nutrire giorno per giorno, siamo solo all’inizio, “ma l’introduzione di questo dataset rappresenta sicuramente una svolta” spiega Elisa Maiettini, ricercatrice della linea di ricerca Humanoid Sensing and Perception di IIT. “Nella robotica è sempre mancato un modo per fare benchmark come invece esiste nella computer vision. Ora si può creare il proprio modello e sperimentarlo sul dataset di riferimento, per poterlo confrontare con altri e capire quale funziona meglio. Prima non era possibile – aggiunge Maiettini – ognuno lavorava nel proprio laboratorio con risultati quasi sempre non confrontabili. Questo passo in avanti sarà decisivo per l’evoluzione della robotica, favorirà in modo sostanziale il processo di ricerca scientifica”.
Ciò non significa, però, che il robot “tuttofare” sia dietro l’angolo e che nel Natale 2024 potremo impacchettarlo e metterlo sotto l’albero per stupire i parenti. “Siamo ancora molto lontano dal robot general purpose” precisa infatti Maiettini, elencando i diversi piani su cui è necessario lavorare in modo parallelo ed efficace. Quello semantico, di cui l’intelligenza artificiale generale è solo una delle componenti. È la parte che rappresenta la comprensione del testo, la percezione delle indicazioni: siamo a buon punto con ChatGPT, ma i risultati riguardano solo alcuni contesti circoscritti. C’è anche il piano fisico su cui impegnarsi, quello dell’analisi della scena dove il robot si muove. È necessario acquisisca una sorta di consapevolezza del movimento, gestendo i propri giunti in modo adeguato. “Ogni robot ne ha di diversi ed è necessario un programma che ne definisca la cinematica e la dinamica – precisa Maiettini – nel robot umanoide è tutto ancora più complesso per via del numero di giunti più elevato”.
Il terzo aspetto da affrontare è quello definito “geometrico” e lega la parte semantica e quella fisica, occupandosi di pianificare il movimento da compiere. “Ognuna di queste tre componenti comporta sfide intrinseche enormi. Il nuovo approccio vuole risolverle tutte contemporaneamente, realizzando un modello per la parte semantica e uno per la parte fisica” spiega Maiettini. L’obiettivo a dir poco ambizioso è quello di riuscire ad addestrare una rete neurale profonda su un numero così grande di dati di robot diversi perché arrivi a capire come “guidarli” tutti, anche quelli con aspetto, proprietà fisiche e capacità molto differenti.
La diversity necessaria per il general purpose
La “cima” è da raggiungere passo dopo passo, con pazienza, sapendo che non mancheranno salite impegnative e ostacoli apparentemente insormontabili. Il primo, affrontabile ma non banale, è quello dei test. “Per ora sono stati realizzati sugli stessi robot con cui è stato fatto il training, con gli stessi giunti, senza considerare configurazioni e strutture diverse. È un ‘difetto’ da eliminare, col tempo, ma senza dubbio l’aver creato il primo dataset condiviso del settore è un risultato senza precedenti e un passo avanti nella giusta direzione” spiega Maiettini.
I prossimi passi saranno da compiere in ogni parte del mondo, con forte spirito di condivisione e collaborazione. E tanta pazienza, perché “ora che la community inizierà a usare questo dataset benchmark, man mano emergeranno i limiti reali del progetto, su cui lavorare davvero” racconta Maiettini. Una delle prime cose di cui occuparsi sarà il fine tuning del modello per adattarlo a test su robot diversi da quelli usati per il training, per esempio. Anche IIT ci lavorerà, contribuendo con test e prove su due dei vari esemplari robotici presenti nei suoi laboratori. In primis con il braccio robotico, solo in un secondo momento passerà poi al modello umanoide che presenta sfide maggiori e un orizzonte più lungo di ricerca. Come IIT, laboratori di tutto il mondo possono rimboccarsi le maniche, contribuire e sfruttare il dataset abbozzato, sperando che continui a restare open. Al momento sembra inevitabile, perché non è quasi materialmente possibile puntare al robot general purpose come singoli, anche come singole potenze tecnologiche mondiali. Ciò che si spera è che continui a prevalere questo paradigma collaborativo: oggi obbligato dalla tecnologia, un domani magari anche scelto dai leader di innovazione perché il risultato possa portare a benefici equamente distribuiti.