Dopo l’innamoramento iniziale per “le meraviglie prodotte dall’intelligenza artificiale generativa”, oggi, con mente più lucida, si cerca di esplorarne le tante opportunità, vigilando perché siano accessibili a tutti in modo omogeneo. Dalla tecnologia, la sfida si è spostata all’etica, alla sociologia e all’ambito normativo, ma gli esperti IT non sono rimasti senza lavoro. Un ambito che ne sta offrendo tanto è quello relativo ai casi di avvelenamento di LLM (Large Language Model). Si tratta di un campo ancora poco noto, ma che ha tutta l’aria di poter diventare il terreno dove i criminali informatici possono coltivare minacce dagli impatti detonanti. Non è pessimismo e nemmeno allarmismo per “rovinare” la fama della genAI, ma uno scenario sempre più possibile e dimostrabile. Un dato di fatto che da un lato fa tremare, ma dall’altro fa pensare: meglio conoscere per primi, e subito, questi rischi piuttosto che scoprirli dopo il cybercrime.
Agenti dormienti invisibili ai “controlli”
Un “passo in avanti” in questa direzione è rappresentato dalla ricerca realizzata da AI Anthropic in cui si dimostra in modo concreto e scientifico che gli LLM possono essere resi dei pericolosi agenti dormienti.
Pescando generosamente da precedenti studi sull’avvelenamento dei modelli AI mirato alla generazione di output dannosi, i ricercatori hanno provato a inserire alcune specifiche modifiche in modo da ottenere un codice vulnerabile “da un certo momento in poi”. È stato un vero e proprio lavoro di squadra che ha visto coinvolti oltre 40 esperti, anche esterni all’azienda, tutti obbligati a prendere anche atto che ogni successivo tentativo di rendere sicuro il modello era destinato a fallire.
Restando sotto copertura per un primo periodo, gli LLM avvelenati possono quindi assumere un comportamento estremamente pericoloso in modo persistente, quindi non contrastabile applicando tecniche standard come il fine-tuning supervisionato, l’apprendimento con rinforzo e l’addestramento avversario.
Rischio backdoor maggiore per modelli open
L’avvelenamento di modelli AI rappresenta quindi un pericolo sostanziale e reale. Una “novità” che è necessario imparare a gestire, iniziando a riconoscere che le backdoor possono esistere anche negli LLM ed è urgente saperle individuare e rimuovere. Chi sa con cosa sta avendo a che fare, è ben consapevole della elevata complessità della sfida emersa attorno allo studio di AI Anthropic: una delle più subdole della prompt injection.
I meno esperti, per coglierne l’importanza, possono immaginare uno scenario come questo: gli aggressori hanno ora la possibilità di inserire una sorta di “frase di attivazione” in Internet, magari all’interno di impostazioni specifiche e ristrette, in modo che possa avvelenare il modello di base quando verrà addestrato. L’effetto sarebbe simile a quello di una bomba a orologeria: allo scadere del tempo indicato, questa parte di codice malevolo riuscirebbe a eseguire azioni di attacco pericolose come, per esempio, il jailbreak o l’esfiltrazione dei dati.
Questa, almeno per ora, resta solo un’ipotesi di possibile utilizzo da parte dei criminali informatici. Mancano le prove, ma è un’ipotesi tecnologicamente possibile e che è facile credere possa far gola a chi vuole guadagnare in modo illecito sul web. Il rischio potenziale sarebbe addirittura quello di vedersi danneggiare l’intero ecosistema software o avvelenare tutta la catena di fornitura, con l’obiettivo di inviare l’innesco alle applicazioni implementate nel sistema di intelligenza artificiale.
Va da sé che questa incombente minaccia diventa più che mai probabile quando l’AI è impiegata con un approccio “as a service”. In questo caso, infatti, molti degli elementi utilizzati per la creazione dei modelli sono rivelati solo parzialmente. Per simili motivi, il rischio avvelenamento è più frequente quando si impiegano modelli aperti e semi-aperti, con una supply chain generalmente meno controllabile rispetto a quelli chiusi e gestiti da grandi aziende.
In ogni caso, meglio non contare sul “poco probabile”, ma fare tutto il possibile per minimizzare anche questo “nuovo” rischio cyber che gli LLM ci regalano. Ciò significa combinare strategie di sicurezza diverse, in modo che creino una sorta di “rete” bloccante per gli attacchi backdoor. Se diventano difficili da compiere, se richiedono all’attaccante molto potere e ampia conoscenza della materia, potrebbero scoraggiare i più, consapevoli di non essere ancora pronti per una tipologia di crimine “troppo intelligente”.