Output tossici da AI generativa con un successo che sfiora il 100%

Le risposte dannose sono all’interno degli LLM, ma sono nascoste e “bloccate” da dei guardrail. Con una nuova tecnica basata sulle probabilità e sulla generazione continuata di testo, LINT, un gruppo di ricercatori ha capito come “estorcerle”. Il suo tasso di successo è del 98% e funziona anche con gli LLM personalizzati

Pubblicato il 05 Feb 2024

Immagine di LALAKA su Shutterstock

Se i contenuti dell’AI Act possono in parte confortare, i tempi di applicazione sono oggettivamente e motivatamente lunghi: chi ha imparato a conoscere gli LLM (Large Language Model) sa che il rischio di ottenere contenuti dannosi e pericolosi è alto, attuale e grave. Istituzioni ed esperti lo ricordano di tanto in tanto a chi li usa con troppa disinvoltura. A parole, ma c’è chi è passato ai fatti, cercando di dare uno scossone alla massa di utenti sprovveduti come a chi deve vigilare su questo tipo di tecnologia.

Un nuovo studio di un gruppo di ricercatori della Purdue University dell’Indiana ha mostrato una nuova tecnica che inganna i chatbot AI per ottenere contenuti dannosi con un tasso di successo che sfiora il 100%.

Indice degli argomenti

LINT: il trucco delle probabilità che fa straparlare gli LLM

Può essere letta come una provocazione impertinente, la performance tecnologica di questi esperti ha invece un’importanza rilevante per chi studia gli LLM o ha a che fare con chi li propone. Si parte dalla certezza che gli LLM come Bard, ChatGPT e Llama contengano informazioni tossiche, per come sono stati addestrati. È infatti proprio per questo che i loro creatori hanno inserito dei “guardrail” per evitare che le dispensino su richiesta. In pochi giorni dal lancio di questi prodotti, però, è stato evidente che bastasse un prompt “furbo” per scavalcarli, e ottenere istruzioni per costruire armi e quant’altro.

I ricercatori dell’Indiana, però, hanno trovato un metodo più efficace e ingegnoso, e molto più potenzialmente pericoloso, facendo leva sulla tendenza degli LLM a divulgare i dati di probabilità relativi alle risposte. Hanno chiamato la loro tecnica LINT (LLM interrogation) e l’hanno spiegata in un documento preprint intitolato “Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs”.

Nella pratica, si agisce su questi valori di probabilità (logit) obbligando direttamente l’LLM a rispondere a una domanda tossica. In questo modo si forza il modello a produrre alcuni token di basso livello, in base ai loro logit. Le risposte tossiche che si stanno cercando, infatti, sono nascoste ma ci sono e possono essere estorte senza creare alcun prompt complesso.

Il malintenzionato, sfruttando LINT, basta che ponga una domanda “provocante” all’LLM, classificando i primi nove token della risposta. Servono quelli corrispondenti a parole “innocenti” e di uso frequente, da utilizzare poi per creare nuove frasi, per continuare a far generare risposte all’LLM. Appare un iter insensato, se non fosse che, come hanno notato i ricercatori, tra le varie risposte lecite, spunta anche quella tossica desiderata.

Nascondere non basta: in futuro servono LLM puliti

Sembra quasi che, con questa tecnica, si voglia in un certo senso confondere le idee agli LLM, facendoli “parlare” a vuoto e poi ingannandoli. In un certo senso è così e sembra che funzioni. Testando LINT su sette LLM open source e tre LLM commerciali su un set di dati di 50 domande tossiche, i ricercatori hanno ottenuto un tasso di successo del 92% con una sola interrogazione, e del 98% dopo cinque. Un risultato significativo, soprattutto se si considera che le più note tecniche di jail-break (GCG e GPTFuzzer) si fermano al 62%.

Come se non bastasse, “messi a nudo” gli LLM più noti, i ricercatori hanno dimostrato che la loro tecnica è in grado di ingannare anche LLM personalizzati, sviluppati per compiti o ambiti specifici. Via libera totale, quindi, non solo per imparare a costruire armi – come da classico esempio – ma anche per danneggiare la privacy e la sicurezza, per esempio rivelando indirizzi e-mail e password deboli.

Se gli LLM in circolo per loro natura sono ingannabili, secondo gli autori della scoperta, sta alla comunità dell’AI valutare in modo più che mai cauto se aprire o meno gli LLM. Per abbattere il tasso di successo della loro tecnica, basterebbe che i contenuti tossici siano puliti, piuttosto che nascosti.