Nel 2023, secondo il Nasdaq, le truffe e le frodi bancarie ammonterebbero a 485,6 miliardi di dollari di perdite a livello globale. Questa è la ragione per cui l’indice azionario, in collaborazione con gli analisti di Celent Research e Oliver Wyman, ha condotto un’indagine su oltre 200 professionisti della prevenzione dei crimini finanziari. Dalla survey è emerso che il 70% degli intervistati prevede che la propria organizzazione aumenterà gli investimenti in Artificial Intelligence (AI) e Machine Learning nell’arco dei prossimi 2 anni.
Il ricorso sempre più diffuso a sistemi di AI per contrastare le frodi in ambito finanziario è dettato dall’esigenza di analizzare ed elaborare più fonti in contemporanea e diversi tipi di dati: POS, informazioni sulle carte di credito, dati di localizzazione, dati degli esercenti ecc. In questo modo da una parte è possibile identificare immediatamente le attività fraudolente, bloccandole sul nascere, dall’altra si possono analizzare e aggregare i dati in modalità batch per successivi approfondimenti.
Ciò che occorre, in sostanza, è riuscire ad archiviare e analizzare grandi volumi di dati strutturati, ma specialmente non strutturati, se è vero quanto sostiene IDC, che cioè entro il 2025 i dati non strutturati costituiranno all’incirca l’80% di tutti i dati complessivi. Inoltre, è fondamentale gestire più progetti di AI in parallelo per diverse unità aziendali e centralizzarli il più possibile su un’infrastruttura di storage comune.
I vantaggi del Data Lake e dello storage a oggetti
L’esigenza di centralizzazione in un’unica infrastruttura modulare ha portato alla crescente adozione di Data Lake e di soluzioni di storage a oggetti in grado di sostituire i sistemi di storage tradizionali o quelli basati su un framework open source come Apache Hadoop. Quest’ultimo, che ha rappresentato nell’ultimo decennio la vera alternativa ai Data Warehouse proprietari e ai formati di dati chiusi, viene considerato universalmente l’origine dei moderni Data Lake in cloud.
Tuttavia, molte aziende oggi stanno rivedendo il loro rapporto con il framework a causa dei limiti connessi alle molte risorse e competenze richieste per la sua configurazione e manutenzione, nonché per il suo aggiornamento. Al contrario, l’utilizzo di un’architettura di archiviazione quale lo storage a oggetti si presta a rispondere meglio agli scenari contemporanei. Rispetto agli approcci tradizionali di gestione dei dati, infatti, i vantaggi dei sistemi di storage a oggetti come base per la creazione di un Data Lake sono diversi.
Anzitutto, riguardano la scalabilità illimitata, poiché può essere memorizzato qualsiasi elemento, da un file di piccole dimensioni a interi terabyte di dati. In secondo luogo, vi è il risparmio sui costi legati alla memorizzazione di dati non strutturati, in quanto lo storage a oggetti è progettato per l’archiviazione a lungo termine. In terzo luogo, va evidenziata la sua flessibilità dal punto di vista delle prestazioni e nella capacità di eseguire più carichi di lavoro eterogenei in parallelo.
Il rilevamento delle frodi finanziarie: un caso d’uso di HPE
In un caso d’uso come la Fraud Dectection, i dati sono ingeriti ed elaborati in tempo reale da modelli di Intelligenza Artificiale. Dopo l’elaborazione, i dati e i risultati dell’analisi vengono caricati nel Data Lake sia nel formato nativo sia in un formato di file ottimizzato per il recupero tale da facilitare le query successive o l’archiviazione dei risultati. La circostanza che i dati provenienti da dispositivi IoT, siti web, app mobili, social media e altre fonti possano essere archiviati in modo duraturo e sicuro nel loro formato nativo, fa sì che siano evitati processi iniziali ETL (Extract, Transform, Load) costosi per definizione. Il che non significa che il flusso di elaborazione dei dati escluda l’ETL, ma che questo paradigma si limiti soltanto a quei file da ottimizzare ad esempio in formato Parquet.
Una best practice in tal senso arriva da HPE (Hewlett Packard Enterprise) che ha implementato una piattaforma cloud-native basata su microservizi sfruttando le soluzioni HPE Server, Storage e Networking insieme a uno stack software integrato, e dando vita così a una pipeline le cui componenti includono:
- ingestione dati per il trasferimento dei dati dalle loro fonti al Data Lake per eseguire analisi in tempo reale e analisi batch;
- storage dati che serve da archivio per i dati raccolti dopo la loro ingestione;
- Data Lake che funge da repository centralizzato dei dati grezzi sia nel loro formato nativo sia in quelli ottimizzati in formato Parquet;
- elaborazione dati in tempo reale o in modalità batch prima di passarli ai framework di Intelligenza Artificiale e Machine Learning.
Il ruolo centrale dell’infrastruttura al servizio dell’AI
Alla luce del caso d’uso realizzato da HPE per la rilevazione delle frodi, è stata registrata una facilitazione della preparazione dei data set per i modelli di Intelligenza Artificiale. Inoltre, è stato possibile determinare una maggiore flessibilità nel consumo del giusto livello di risorse informatiche. Il Data Lake, in pratica, assolve al compito di repository centralizzato in cui qualsiasi motore di analisi può interrogare i dati secondo le esigenze di elaborazione più appropriate. A ciò si aggiunge un miglioramento in termini di sicurezza, privacy e compliance normativa, sia perché lo storage a oggetti offre funzionalità complete di governance dei dati, sia perché abilita controlli di accesso granulari garantendo la protezione delle risorse e consentendo, al contempo, l’accesso self-service.
In più, l’architettura semplifica la portabilità da e verso gli ambienti cloud, accelerando l’adozione del cloud ibrido. Infine, la scalabilità illimitata di cui si è parlato in precedenza elimina il rischio di esaurire lo spazio di archiviazione con la crescita dei dati, rendendo a prova di futuro dati aziendali in continua e costante crescita. Tutto questo fa capire perché il rilevamento delle frodi finanziarie oggi necessiti sì di modelli AI, ma anche e soprattutto di un’infrastruttura che svolga un ruolo centrale nel successo delle iniziative che fanno leva sull’Intelligenza Artificiale.
Un’infrastruttura non adeguata o la mancanza di capacità infrastrutturali specifiche sono spesso all’origine di progetti destinati all’insuccesso. Ecco perché HPE ha messo in campo una soluzione in grado di coprire tutte le fasi dell’AI e dei carichi di lavoro analitici: per aiutare le organizzazioni ad affrontare adeguatamente le sfide infrastrutturali che sottendono quelle del business, di cui la Fraud Detection è parte integrante.