Nella battaglia quotidiana fra aziende e cybercriminalità, le prime possono avvalersi oggi di nuovi strumenti di protezione dalle minacce basati sull’utilizzo dell’intelligenza artificiale e, in particolare, di una sua sottocategoria: il machine learning.
Il metodo legacy di detection del malware basato sul riconoscimento delle signature (un numero derivato da una stringa di testo che identifica in modo univoco un virus specifico) è inefficace nel momento in cui gli hacker introducono una variante del codice maligno e il nuovo hash (altro modo di chiamare la signature) di questo non è ancora stato ricavato dai vendor di sicurezza per l’update periodico dei loro software di security.
Un passo avanti per aiutare le soluzioni di sicurezza a prevenire l’esecuzione automatica di malware non ancora riconoscibile è stata l’introduzione delle tecniche di tipo euristico, un meccanismo di ricerca non rigoroso che, a partire da ipotesi, effettua delle previsioni e, quindi, produce dei risultati (outcome) che devono essere convalidati in seguito per via rigorosa. Nella network security, questo approccio permette di individuare ogni codice la cui natura assomiglia a quella di un malware già conosciuto. Un limite di questa tecnologia è che tende a produrre molti cosiddetti falsi positivi. Lo vediamo, per esempio, quando apriamo la cartella “spam” dei programmi di posta elettronica e siamo costretti a contrassegnare come “non spam” dei messaggi non maliziosi.
Verso l’antielusione sempre più efficace
Sempre per la tendenza sempre più spiccata dei cybercriminali a eludere le tradizionali tecniche di screening del malware, per esempio cambiando spesso le location (e quindi gli indirizzi) dei server di comando e controllo (sistemi connessi al web che permettono agli hacker di assumere il controllo da remoto di una o più macchine per trasformarle in nodi di botnet da cui sferrare attacchi DDoS o campagne di spamming), diviene imperativo per le aziende cercare soluzioni di security in grado di intercettare e bloccare anche malware del tutto nuovo. È qui che entra in gioco il machine learning in quanto l’artificial intelligence è capace di esaminare enormi moli di dati, analizzare dataset significativi dal punto di vista statistico, prevedere i loro outcome, e quindi generare automaticamente nuovi algoritmi che aggiornano gli outcome preesistenti. Il tutto senza, o con il minore possibile, intervento umano.
Gli algoritmi di machine learning individuano e analizzano due tipologie di oggetti: gli artefatti, veri e propri oggetti “fisici” presenti nel traffico dati quali, per esempio, gli attachment di messaggi di posta elettronica o altri file; i comportamenti, ovvero le azioni condotte al fine di attuare un attacco. In questo caso, gli esperti di sicurezza sono facilitati dal fatto che le azioni necessarie per prendere il controllo dei sistemi operativi (OS) sono relativamente limitate e comuni. Se quindi può non essere facilmente riconosciuto un artefatto, molto più semplice, per il machine learning, è individuare un behavior anomalo e metterlo subito sotto le sue lenti.