Articoli scientifici scritti da ChatGPT? Gli accademici li stanano

Un team di ricercatori è riuscito a realizzare un algoritmo in grado di identificare un contenuto scritto da software di intelligenza artificiale con un’accuratezza del 99%. Per ora, infatti, scienziati e macchine scrivono in modo ben diverso

Pubblicato il 17 Lug 2023

Immagine di Madame-Moustache su Shutterstock

Nelle scuole e nelle università era scattato il panico all’idea di vedersi consegnare testi redatti da ChatGPT, invece che dagli studenti, senza poterli distinguere. Il problema resta tuttora irrisolto e la discussione aperta, ma ha smesso di fare notizia. Forse ci stiamo abituando all’idea di dover convivere con questi LLM (large language model) e di doverlo fare in modo “collaborativo”. Ciò non significa certo che si sia smesso di lavorare ai software progettati per rilevare il testo generato dall’intelligenza artificiale, ma finora non se n’è parlato molto, date le performance spesso inaffidabili.

È in questo panorama di “work in progress” che viene accolto con particolare entusiasmo l’annuncio di alcuni accademici. Negli scorsi mesi, in team, avrebbero addestrato un algoritmo di apprendimento automatico per individuare i documenti scientifici generati da ChatGPT, raggiungendo un’accuratezza superiore al 99%.

Indice degli argomenti

Tanti dataset per training e testing

Il gruppo di ricercatori, guidati dall’Università del Kansas, ha focalizzato la propria attenzione su un particolare tipo di testi. Ha scelto di partire proteggendo la propria categoria, imparando quindi a riconoscere documenti tipicamente accettati e pubblicati dalle riviste accademiche, ma realizzati con ChatGPT (o simili). Una esigenza fortemente sentita dal mondo della ricerca, visto che questi software assemblano il testo da molte fonti già pubblicate e non effettuano alcun tipo di controllo di accuratezza.

Per prima cosa sono stati compilati dei set di dati per addestrare un algoritmo in grado di classificare gli articoli scritti da scienziati e da ChatGPT. Partendo da 64 articoli “prospettici” selezionati, riguardanti svariati argomenti, i ricercatori hanno chiesto a ChatGPT di generare paragrafi che descrivessero la stessa ricerca per poi creare 128 articoli “falsi”. Con questo iter hanno ottenuto 1.276 paragrafi prodotti dall’AI e li hanno utilizzati per addestrare il classificatore.

Poi sono passati alla fase di test, compilando altri due set di dati, ciascuno contenente 30 articoli di prospettiva reali e 60 articoli scritti da ChatGPT, per un totale di 1.210 paragrafi con cui mettere alla prova l’algoritmo.

“Trova le differenze”? Tra uomo e AI ci sono

I risultati ottenuti con questo metodo non sono sembrati affatto male, tanto che li hanno resi pubblici, riaccendendo le speranze sopite di molti. L’algoritmo classificatore realizzato ha saputo distinguere tra gli scritti scientifici reali degli esseri umani e quelli generati dall’intelligenza artificiale nel 100% dei casi. Lavorando sui singoli paragrafi, l’accuratezza è scesa, ma solo leggermente, fermandosi al 92%.

Il “segreto” di questo software sta nel concentrarsi su una serie di differenze stilistiche tra la scrittura umana e quella dell’intelligenza artificiale. Le stesse che molti in giro per il mondo stanno mettendo in luce in coro. Una persona mediamente ha un vocabolario più ricco, scrive paragrafi più lunghi e con parole più diversificate, oltre a usare la punteggiatura più frequentemente. ChatGPT si dimostra, per ora, meno preciso e affatto in grado di fornire informazioni specifiche su cifre o nomi propri, abusando di termini dal tono ambiguo come “tuttavia”, “ma”, “sebbene”, “questo” e “perché”.

Tutto fa sperare che si tratti della strada giusta ma, in ogni caso, saremmo solo all’inizio. È ancora necessario, infatti, verificare la robustezza del metodo con testi realizzati con l’AI ma poi leggermente modificati da esseri umani. Quella finora ottenuta resta un’ottima proof-of-concept, il prossimo step potrebbe consistere nell’aumentare le dimensioni del set di test, per definire più chiaramente l’accuratezza del metodo su questa precisa categoria di esempi di scrittura.