In 25 anni di attività Amazon è passata dall’attività che si svolgeva in un garage ad avere 175 centri in tutto il mondo e 250mila dipendenti che spediscono milioni di articoli al giorno. Il team globale delle operazioni finanziarie del gruppo si trova di fronte alla sfida di tracciare i “big data” prodotti da questa galassia e in modo sempre più preciso e veloce. Da questo contesto nasce nel 2019 l’idea di costruire un data lake a supporto di questa immensa rete logistica, il cosiddetto Galaxy data lake, verso cui oggi tutti i team stanno lavorando per trasferire i propri dati: un repository sicuro e centralizzato che permette di memorizzare, governare, scoprire e condividere le informazioni strutturate e non strutturate. Una soluzione che consente di superare la logica dei silos, le difficoltà nell’analisi di diversi set di dati, il controllo dei dati, la sicurezza dei dati e l’incorporazione dell’apprendimento automatico, il cosiddetto machine learning.
La fine dei data silos
Avere sacche di dati in luoghi diversi, controllati da gruppi diversi – spiega Amazon in una nota – oscura inevitabilmente i dati. Per espandersi a livello internazionale e creare rapidamente nuovi programmi di spedizione, la maggior parte dei team di pianificazione delle operazioni ha avuto il controllo dei propri dati e della propria tecnologia. Un data lake risolve questo problema unendo tutti i dati in un’unica posizione centrale.
Analizzare contemporaneamente diversi set di dati
Nella galassia di Amazon, per fare un esempio, Amazon Prime dispone di dati per i centri logistici e le merci confezionate, mentre Amazon Fresh dispone di dati per i negozi di alimentari e dei diversi generi alimentari. Poi spesso i programmi di spedizione differiscono a livello internazionale, e c’è anche una quantità crescente di dati non strutturati provenienti da dispositivi legati all’Internet of Things. Per combinare tutte queste informazioni in un data warehouse tradizionale senza un data lake, sarebbe necessario un enorme lavoro di preparazione dei dati e di esportazione, trasformazione e caricamento (ETL). I data lakes invece permettono di importare qualsiasi quantità di dati in qualsiasi formato perché non esiste uno schema predefinito. Lo spostamento di tutti i dati in un data lake migliora anche ciò che si può fare con un data warehouse tradizionale avendo la flessibilità di memorizzare dati altamente strutturati e a cui si accede frequentemente in un data warehouse e allo stesso tempo mantenendo fino a exabyte di dati strutturati, semi-strutturati e non strutturati all’interno del data lake.
MIgliorare la gestione e l’accesso ai dati
Con un data lake, invece di gestire l’accesso per tutti i diversi luoghi in cui sono memorizzati i dati, ci si deve preoccupare solo di una serie di credenziali. I data lakes abilitano controlli che consentono agli utenti autorizzati di vedere, accedere, elaborare e/o modificare specifici asset e aiutano a garantire che gli utenti non autorizzati non possano intraprendere azioni che possano compromettere la riservatezza e la sicurezza dei dati. Inoltre i dati sono memorizzati in un formato aperto che rende più facile lavorare con diversi servizi analitici.
Machine learning più semplice e rapido
Un data lake è una potente base per ML e AI (intelligenza artificiale), visto che prosperano su grandi e diversi set di dati. Il ML utilizza algoritmi statistici che imparano dai dati esistenti, un processo chiamato formazione, per prendere decisioni su nuovi dati, un processo chiamato inferenza. Durante l’addestramento, vengono identificati modelli e relazioni nei dati per costruire un modello che permetterà di prendere decisioni intelligenti basate su dati mai incontrati prima. Più dati si hanno a disposizione migliore sarà l’addestramento dei modelli ML, con conseguente miglioramento della precisione.
Galaxy data lake: le caratteristiche tecniche
Il Galaxy data lake, che è una componente di una più grande piattaforma di grandi dimensioni conosciuta internamente come Galaxy, è costruito su Amazon Simple Storage Service (Amazon S3), un servizio di archiviazione di oggetti che offre disponibilità, durata e scalabilità senza pari. A bordo dei vari set di dati di Amazon S3 vengono utilizzati AWS Glue, un servizio ETL completamente gestito che facilita la preparazione e il caricamento dei dati per l’analisi, e AWS Database Migration Service Inoltre, Galaxy combina le risorse di metadati di più servizi in un livello di catalogo unificato costruito su Amazon DynamoDB, un database di documenti e di valori chiave. Amazon Elasticsearch Service (Amazon ES), invece, è utilizzato per consentire una ricerca più veloce delle query sul catalogo.