Trovare le notizie nascoste in 13,4 milioni di file è un po’ come cercare un ago in un pagliaio, e potrebbe richiedere anni di lavoro con grandi margini di errore. Così per analizzare i documenti dei “paradise papers”, le informazioni cioè fuoriuscite da due paradisi fiscali e 19 giurisdizioni segrete, che riguardano anche i rapporti tra potere politico e potere finanziario su scala globale, l’international consortium of investigative journalists ha deciso di servirsi dell’aiuto dell’intelligenza artificiale, utilizzando cloud e big data analytics per rendere più rapida e più efficace la lettura e l’analisi delle carte. Il partner tecnologico scelto per questa operazione è Talend, che metterà a disposizione dei giornalisti impegnati sui paradise papers il proprio Talend Data Fabric
Icij si è affidata a Talend – spiega la società – per caricare oltre 1,4 Terabyte di dati non strutturati nel database grafico di Neo4j, che sfrutta la piattaforma di visualizzazione grafica Linkurious per organizzare e accedere alle informazioni. I dati includono e-mail, documenti Excel, Csv e Pdf con testo e immagini su aziende e persone che utilizzano un sistema nascosto per evadere le tasse. Icij ha anche utilizzato altri strumenti open source per supportare il proprio “Knowledge Center” e rendere le informazioni disponibili per i giornalisti.
L’open source di Talend e il cloud di AWS
“Talend è la nostra soluzione preferita quando si tratta di pulire, trasformare e integrare i dati che riceviamo. E’ un elemento cruciale che ci consente di costruire un solido database – afferma Pierre Romera, Cto di Icij – Lavorare con soluzioni open source come Talend garantisce sicurezza e affidabilità dei dati mentre la nostra ampia rete di giornalisti investigativi esamina terabyte di file. Le soluzioni open source, alimentate costantemente da una vasta community di collaboratori, ci consentono di beneficiare delle ultime innovazioni per l’elaborazione, l’estrazione e a visualizzazione dei dati”.
Quanto al processo di gestione dei dati, è ancora un volta il cloud a essere centrale: Icij infatti utilizza Amazon Web Services (Aws) per elaborare tutti i dati e ampliare l’accesso: “Il passaggio al cloud era ovvio a causa della natura della nostra missione e della grande mole di dati che elaboriamo – prosegue Romera – La tecnologia cloud offre infatti la scalabilità di cui abbiamo bisogno nel momento in cui è necessaria, per gestire facilmente il nostro carico di lavoro”.
“Da quando Icij ha rivelato il Panama Papers leak nel 2016, per il quale ha vinto il premio Pulitzer – sottolinea Ciaran Dynes, che in Talend è Svp of products – abbiamo visto come le tecnologie per la gestione e l’elaborazione dei dati possano avere un impatto sulla nostra società. Siamo lieti di supportare il giornalismo investigativo accurato e coloro che dai dati cercano di estrarre informazioni significative”.