Verba volant, scripta manent, una antica ma attuale verità, ma quando ciò si dice, viene poi riportato male per iscritto, diventa comunque un problema. Un moderno e attuale problema, che preoccupa sempre più persone, man mano che si sparge la voce. È infatti di recente stato pubblicato un nuovo studio proprio dedicato alle allucinazioni dei modelli di intelligenza artificiale generativa addestrati per trascrivere input audio. L’ennesimo, quello che potrebbe frenarne lo sviluppo o accelerarlo, sicuramente quello che sta facendo riflettere gli utenti di questo tipo di servizio.
Quasi metà dei “fraintesi audio” sono dannosi
Al centro della denuncia fatta dai ricercatori della Cornell University in particolare Whisper, il modello di OpenAI per la trascrizione vocale. Gli hanno sottoposto circa 20 ore di audio di persone con e senza afasia, registrando allucinazioni nello script dell’1,7% dei segmenti audio di soggetti afasici e dell’1,2% di quelli di non afasici.
Con l’afasia le parole escono dalla bocca in modo forzato, lento e con grande fatica, possono essere anche inframmezzate da involontarie imprecazioni, ma in generale hanno senso nel parlato del soggetto. Non nelle trascrizioni che riportavano più errori del solito, forse a causa delle lunghe pause più comuni nelle persone afasiche e che il sistema non “legge” come pause. Un elemento particolarmente è che circa il 40% delle parti trascritte in modo errato erano dannose o preoccupanti, in metà dei casi anche violente, con allusioni sessuali o stereotipi razziali.
Secondo i ricercatori, non si tratta di un problema legato alla natura dei discorsi tipici di persone afasiche, oltretutto. Il fenomeno allucinatorio potrebbe ripetersi in modo simile anche in altri tipi di situazione di “parlato difficoltoso” come quello di anziani o di persone non madrelingua.
Addestrare in modelli alla diversità, di parlato
Oltre a snocciolare numeri e test, e previsioni di nuove possibili allucinazioni, il team di ricerca ne ha anche indagato i motivi. E ha ammesso che la trascrizione “intelligente” è oggettivamente una sfida non banale. Per ora.
Gli strumenti di trascrizione oggi si trovano di fronte a una estrema diversità dei modelli vocali, diffusi in varie parti del mondo, e allo stesso tempo i modelli su cui si basano possono essere addestrati con una relativamente limitata quantità di dati. Pochi sono quelli oggi disponibili, infatti, e per giunta presentano una considerevole variabilità sia nell’articolazione, sia nella pronuncia.
Basta analizzare il funzionamento di questi sistemi di trascrizione per immaginare i molteplici trabocchetti che si possono creare. Vi entrano in gioco i chatbot generativi basati su modelli linguistici di grandi dimensioni (LLM), che producono testi assemblando parole in modo probabilistico. E sistemi di trascrizione che combinano questi stessi modelli con altri audio, addestrati su rappresentazioni di modelli vocali. Gli LLM in sé stanno facendo progressi in modo molto rapido, ma questo “passaparola” tra AI resta una sfida, soprattutto per quanto riguarda i casi limite come quello analizzato.
Nessuno dice però di gettare la spugna, nemmeno gli stessi ricercatori che, anzi, suggeriscono come procedere per fare progressi. Per prima cosa, l’addestramento dovrebbe essere fatto su discorsi di diversi gruppi di persone con caratteristiche linguistiche e stili di conversazione diversi. E poi, mai rinunciare a controllare manualmente l’output, ma questo dovrebbe valere sempre e comunque, ogni volta che c’è di mezzo l’AI generativa.