Capita fin troppo di frequente che il mondo funzioni alla rovescia. Quando però si tratta di ricercatori che provano a ingannare modelli di AI altamente diffusi e che usiamo “a nostro rischio e pericolo”, sta girando nella giusta direzione. Anzi, meno male che ci si mettono anche “hacker buoni” e non solo i veri criminali informatici. I loro sforzi e i loro risultati sono spunti utili per chi desidera offrire un modello o una soluzione eticamente corretti e che non creino danni a chi li usa in modo inevitabilmente ingenuo.
L’approccio diverso di BEAST
Un significativo contributo per realizzare nuove generazioni di LLM (Large Language Model) più sicuri lo hanno dato gli esperti di informatica dell’Università del Maryland, negli Stati Uniti. Nelle scorse settimane hanno svelato di essere riusciti a sviluppare un modo efficiente per creare prompt e ottenere risposte dannose.
La loro tecnica BEAST, che sta per BEAm Search-based adversarial aTtack, è spiegata passo per passo in un documento intitolato “Fast Adversarial Attacks on Language Models In One GPU Minute”. Vale la pena di leggerlo, almeno per gli addetti ai lavori, perché promette di sviare i modelli con un prompt, una GPU Nvidia RTX A6000 con 48 GB di memoria e un codice open source di prossima pubblicazione, aspettando solo un minuto per l’elaborazione. Una performance malevola eccellente rispetto agli attacchi basati sul gradiente che richiedono oltre un’ora di attesa: BEAST, secondo i suoi creatori, risulta 65 volte più veloce. E, visto ciò che serve per mettere in atto un attacco, non è nemmeno molto costoso in termini economici, al contrario di altri metodi che, richiedendo l’uso di modelli più potenti, hanno il loro prezzo.
Il lavoro dei ricercatori è iniziato osservando che modelli LLM come Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B e LLaMA-2-7b messi a punto e “allineati” con il learning from human feedback (RLHF), non erano molto impermeabili ai tentativi di “corruzione” dei malintenzionati. Accennavano un timido rifiuto e bastava una buona tecnica di “jailbreak” per la generazione di risposte dannose, nonostante l’addestramento alla sicurezza.
Con BEAST si sfrutta invece un altro approccio, lasciandosi ispirare dalla tecnica “beam search”, generalmente utilizzata per campionare i token dall’LLM. Nella pratica gli scienziati hanno selezionato una serie di messaggi nocivi a vari modelli, sottoponendoli a un algoritmo addestrato per trovare le parole necessarie a “estorcere” una risposta avversa da parte di ogni modello. “In un solo minuto per richiesta, abbiamo ottenuto un tasso di successo dell’attacco dell’89% nel jailbreak di Vicuna-7B- v1.5, mentre il miglior metodo di base raggiunge il 46%” spiegano nel documento.
Bastano i punteggi di probabilità dei token
Uno dei vantaggi più evidenti e sostanziali dell’approccio scelto per BEAST è il fatto che non ci sia bisogno di accedere all’intero modello linguistico. Per attaccare un modello basta poter accedere ai punteggi di probabilità dei token dal livello finale della rete.
Ciò significa poter attaccare quasi tutti gli LLM sul mercato, perlomeno tutti coloro che hanno messo a disposizione i propri punteggi. OpenAI ha intenzione di farlo e lo stesso vale per molti altri modelli con simile grado di diffusione.
I prompt ottenuti e da utilizzare sembrano una serie di parole ragionevoli accompagnate da un suffisso visibilmente fuori posto e da segni di punteggiatura sospetti. È quindi comprensibile il motivo per cui all’interno di BEAST gli scienziati abbiano incluso parametri regolabili per rendere più leggibile il prompt malevolo. Si agisce a scapito della velocità di attacco o del suo tasso di successo, ma si ottiene la possibilità di utilizzare il prompt per mettere a punto un attacco di social engineering. Ciò significa, per esempio, riuscire a convincere un utente a inserire un prompt malevolo leggibile all’interno di un suo scritto e fargli creare molti danni a sua insaputa.
Questo è solo un esempio di ciò che con BEAST si può fare, se il suo grado di efficacia è confermato. I suoi creatori spiegano infatti che può servire anche a minimizzare le allucinazioni, oppure a creare danni in merito alla protezione della privacy. Nel primo caso si aggiungono set di dati TruthfulQA alle domande dei token avversari, facendo in modo che i modelli forniscano il 20% in più di risposte errate dopo l’attacco. Per quanto riguarda invece la privacy, si mette in atto un attacco di inferenza di appartenenza, sperimentandone i rischi in modo da poter migliorare le prestazioni dei toolkit esistenti che possono essere utilizzati per la verifica dei modelli linguistici
L’unico modo, così almeno per ora sembra, di mitigare la potenza di inganno di BEAST è una buona strategia di formazione sulla sicurezza. Non è un’affermazione retorica che i ricercatori associano al loro risultato: ci sono le prove empiriche. Sembra infatti che, nel caso di LLaMA-2, il suo tasso di successo sia inferiore e che questo sia proprio dovuto agli sforzi fatti da meta per sensibilizzare e formare gli utenti in merito ai rischi legati ai prompt malevoli.