Già stiamo faticosamente abituandoci a convivere con GPT-4 e altri modelli altrettanto “futuristici”, ora gli esperti ci lanciano una nuova sfida. Sembra che dovremo accettare anche l’idea che non è possibile riconoscere con certezza i testi prodotti dall’AI. Per lo meno non ora. Gli schemi di rilevamento esistenti performano poco meglio del lancio di una monetina. Per parecchi anni saremmo quindi destinati a “digerire” ciò che scriverà l’AI grazie alla statistica, anche a nostra insaputa.
Dove non può l’AI, c’è la parafrasi
L’inquietante notizia arriva da un gruppo di informatici dell’Università del Maryland, negli Stati Uniti. Si tratta di un team di 5 esperti che si sono da subito dedicati a studiare le tecniche di rilevamento di ciò che i grandi modelli linguistici stanno producendo e proponendoci. Le loro conclusioni sono raccolte in un documento intitolato “Can AI-Generated Text be Reliably Detected?”: il punto di domanda non fa presagire scenari rosei.
Sia teoricamente che empiricamente, infatti, anche i rilevatori più all’avanguardia non si sono dimostrati in grado di riconoscere in modo affidabile gli output LLM. Man mano che i modelli ML continueranno a migliorare, la situazione non potrà che degenerare.
Il pensiero va, in primis, ai problemi che questa conclusione accademica pone. Le conseguenze indesiderate con cui avremo presto a che fare vanno dallo spam sofisticato, alle fake news manipolative, fino alle sintesi ingannevoli e al plagio.
Se il modello, da solo, potrebbe essere “stanato”, esiste l’opzione di aggiungere un “layer” di semplice parafrasi. Con un programma di sostituzione delle parole, quindi, si riuscirebbe nuovamente a eludere i controlli. Un semplice trucco che, secondo gli autori dello studio, potrebbe peggiorare l’accuratezza di un rilevatore facendolo passare da un soddisfacente 97% a un valore decisamente più preoccupante compreso tra l’80% e il 57%. Si sfiora la percentuale garantita dal lancio di monetina.
Il fallimento del watermarking
Il semplice atto di parafrasare un testo prodotto da un modello generativo permette di mandare in tilt un’intera gamma di rilevatori. Non si salvano nemmeno quelli che utilizzano gli schemi di watermarking o che sono basati su reti neurali.
Per quanto riguarda il watermarking, il problema è che viene ignorata la natura “intelligente” della distribuzione del testo. Con questo metodo non si riesce a compiere una netta distinzione. Se si “stringono le maglie”, il rischio è quello di creare dei falsi positivi. Molti testi “umani” potrebbero infatti far scattare l’alert di possibile plagio, passando per prodotti statistici, generati dall’AI. Viceversa, se l’algoritmo di watermark viene impostato per rilevare solo e soltanto testi generati dall’AI, la parafrasi torna a essere un espediente perfetto per eludere i controlli.
Anche effettuando l’inversione dell’applicazione della parafrasi a un determinato campione di testo, i risultati non sono soddisfacenti. Si pone infatti un ulteriore problema: il rilevatore dovrebbe cercare di invertire la parafrasi solo con frasi effettivamente generate dall’intelligenza artificiale. Il rischio di falsi positivi, altrimenti, tornerebbe elevato: esistono troppe combinazioni di parafrasi e invertire il processo diventa impossibile o illusorio. Soprattutto se non si conosce il testo originale. Sperimentando anche altri metodi di rilevamento, i cinque ricercatori hanno notato che le opzioni restano sempre e solo due. Scarsa accuratezza o alert fasulli.
La risposta al titolo del loro studio è quindi “no”. Non si riescono a riconoscere i testi creati dall’AI, almeno per ora. Senza smettere di tentare, meglio cominciare a entrare nell’ottica di dover convivere con questa incertezza. Non avremo sempre modo di identificare ciò che è stato prodotto dall’AI e cosa dall’uomo. Ciò che da subito possiamo personalmente fare è allenare il nostro spirito critico e imparare a verificare la “fonte” del testo. Ciò che possiamo pretendere dai social, per esempio, è un controllo più stringente, attento e diffuso degli account. Ne guadagnerebbe la società tutta.