L’esplosione del volume dei dati digitali, il cosiddetto fenomeno Big Data, costituisce una grande opportunità per le imprese di qualsiasi settore produttivo, che proprio a partire dall’analisi sistematica dei dati raccolti e dalla loro organizzazione possono trovare delle correlazioni utili per le proprie scelte e per le strategie di business. Il lavoro sulle informazioni ha portato da tempo alla nascita e allo sviluppo di una professione, quella del Data Scientist, che ha primariamente il compito di focalizzare attenzione e risorse sullo studio e sull’interpretazione delle correlazioni. Una figura peraltro in grande evoluzione proprio in ragione degli strumenti di lavoro sempre più innovativi e performanti che ha a disposizione. Ma c’è un’altra distinta figura professionale, con una storia più lunga alle spalle, che ha assunto un’ulteriore centralità nell’epoca dei Big Data, vale a dire quella del Data Engineer. Nella Data Pipeline, il data engineer ha il cruciale compito di progettare, costruire, installare, testare e mantenere i sistemi di gestione dei dati, gestendone il flusso dalle fonti alle piattaforme di Data Management. Gestione del flusso significa anche, in prima battuta, preoccuparsi dell’integrità e disponibilità dei dati che, anche per essere realmente utili al lavoro interpretativo dei Data Scientist, non devono subire alterazioni di alcun tipo durante i vari passaggi.
Il ruolo del data Engineer
Un compito che, nelle aziende reali, caratterizzate da un’estrema complessità e da molteplici fonti, è tutt’altro che semplice e scontato. Proprio l’avvento dei Big Data e della Data Science ha profondamente cambiato negli ultimi anni il lavoro dei Data Engineer: occorre considerare che sino a non molto tempo fa, sostanzialmente questi soggetti dovevano occuparsi della gestione delle informazioni in entrata e in uscita da un classico database. Dati che, quasi mai, avevano necessità di analisi in tempo reale, al contrario di quanto succeda oggi (in particolare per effetto dell’importanza assunta dall’IoT). È inoltre evidente che l’aumento del volume dei bytes, peraltro provenienti da un numero di fonti sempre più molteplici, complica non poco il lavoro di gestione e fruibilità dei dati stessi che, come abbiamo visto in precedenza, sta alla base stessa dei compiti del Data Engineer. Fortunatamente per questi professionisti, in parallelo con l’esplosione del fenomeno Big Data c’è stato anche lo sviluppo di tecnologie capaci di supportare il delicato lavoro di Data Engineering.
Arrivano dal Cloud nuovi strumenti per i Data Engineer
Innanzitutto, il cloud: che per gli ingegneri ha significato la fine dei tradizionali limiti fisici legati alla disponibilità di storage e server fisici in cui conservare i dati. Oggi, grazie alla diffusione delle soluzioni cloud pubbliche e ibride, invece, le aziende hanno a disposizione spazi di archiviazione e calcolo potenzialmente infiniti e nello stesso tempo flessibili, utili per gestire particolari momenti di picco. Questa possibilità, tra l’altro, sta liberando i Data engineer dalla gestione del dimensionamento dell’infrastruttura, consentendo loro di dedicare più tempo ad altre attività a maggior valore. Inoltre, oltre a interfacciarsi con i database tradizionali di tipo legacy, ai data engineer sono sempre più richieste competenze di business intelligence e di Machine learning, nonché di linguaggi di programmazione come Python e Java. D’altra parte, i Data engineer possono beneficiare della sempre maggiore presenza di strumenti per la Data Infrastructure componibile: questi tool consentono di effettuare operazioni di Data Consolidation, data Warehouse e anche di analytics in maniera più semplice e lineare.
La creatività dei Data Engineer
Questi stack componibili consentono poi ai data engineer di dedicare il proprio tempo a progetti che utilizzano i dati per costruire prodotti migliori, anche utilizzando tecnologie come Machine learning. Occorre considerare, infatti, che i data engineer sono spesso responsabili della creazione di algoritmi capaci di consentire un accesso più semplice ai dati non elaborati. Gli ingegneri dei dati si occupano ormai anche di come ottimizzare il recupero dei dati e come sviluppare dashboard, report e altre modalità di visualizzazione per le parti interessate. Senza contare che, in realtà di più piccola dimensione (dove magari mancano i Data Scientist), i data engineer possono anche essere responsabili della comunicazione delle tendenze dei dati ai responsabili decisionali. C’è poi da tenere in considerazione che, vista la sempre maggiore importanza che tecnologie come intelligenza artificiale e machine learning stanno assumendo per la gestione dei sempre crescenti volumi di dati, non pochi data engineer stanno evolvendo la propria professionalità, diventando veri e propri machine learning engineer. Il ruolo è quello di costruire modelli di machine learning scalabili e production-ready, capaci dunque sia di definire modelli e algoritmi analitici che di individuare le soluzioni tecnologiche concrete per implementarli. In definitiva, dunque, si tratta di data engineer che sanno progettare sistemi informatici in grado di apprendere in maniera autonoma.
Suggeriamo di proseguire l’approfondimento di questi temi con la lettura di
Analisi, approfondimenti, studi e tools per data scientist, IT Manager e Lob
Immagine fornita da Shutterstock