Per comprendere qual è il percorso formativo – o forse sarebbe più corretto dire i percorsi formativi – da seguire per diventare Data Scientist, è importante in primo luogo comprendere quali sono gli skill e le competenze richieste a chi vuole intraprendere quella che senza dubbio è una delle professioni più ricercate degli ultimi anni.
Udacity, il sito che eroga corsi di formazione online, ha affrontato il tema partendo proprio dalle competenze e da qualche importante distinguo.
Per maggiori approfondimenti su Big Data, Data Science e sul lavoro dei Data Scientist scarica il white paper
Al lavoro con i data scientist: una guida per cogliere le opportunità dei big data
Cosa fa il Data Scientist?
Innanzi tutto è importante comprendere cosa si intenda effettivamente con il termine Data Scientist. Perché se il Data Scientist è semplicemente una nuova definizione con la quale si descrivono i Data Analyst, allora le competenze richieste sono in primis la capacità di estrarre dati da database MySQL, gestire tabelle pivot in Excel, produrre visualizzazioni di base, gestire gli Analytics.
Competenze di base – Udacity ironicamente definì questa job description come quella di un data analyst che vive a San Francisco – ma sicuramente indispensabili per poter poi muoversi verso nuove complessità.
Un Data Scientist, ma anche un data engineer, compare anche nelle ricerche di lavoro di quelle aziende che devono fare i conti con una disponibilità crescente di dati e hanno bisogno di qualcuno che le aiuti a sviluppare l’infrastruttura necessaria a gestirli.
Sono aziende che stanno muovendo i loro primi passi in questo ambito e per questo hanno bisogno di qualcuno con qualche competenza di ingegneria software di base per mettere in moto tutto il processo.
Poi ci sono aziende fortemente orientate al dato, per le quali il dato è il prodotto. Sono realtà nelle quali le attività di Data Analysis e Machine Learning risultano piuttosto intense e nelle quali sono necessarie figure con buone competenze matematiche, statistiche o ancora di fisica.
E infine ci sono loro: le aziende che non hanno il dato come prodotto ma che sui dati e sul loro significato progettano e adattano il loro futuro.
Sono realtà crescenti, numericamente parlando, e hanno bisogno sia di Data Scientist con competenze di base, sia di Data Scientist con competenze più mirate, dalla visualizzazione al Machine Learning.
Se questo è il quadro generale, che sempre Udacity ha riassunto in questo schema piuttosto efficace, arriviamo dunque alle competenze.
Competenze del Data Scientist
Sui fondamentali ci sono pochi distinguo da fare: fermo restando che, qualunque sia il compito che il Data Scientist è chiamato a svolgere, qualche conoscenza base di ingegneria del software non è solo gradita ma necessaria, è palese che a un Data Scientist sia richiesto di sapersela cavare con linguaggi di programmazione statistica come R o Python, e con linguaggi database, come SQL.
Servono poi competenze statistiche, di base e non solo, che aiutino, in primo luogo, a stabilire quali tecniche siano le più idonee agli obiettivi da raggiungere.
Similmente, quando si ha a che fare con grandi quantità di dati e in contesti cosiddetti data-driven, tecniche e metodi di Machine Learning sono importanti: entrano dunque in gioco gli algoritmi k-NN (k-nearest neighbor, per il riconoscimento dei pattern), i classificatori foresta casuale (random forest) o ensemble. Anche in questo caso, prima ancora che la padronanza dei singoli strumenti, è cruciale saper distinguere quale tecnica meglio si adatti a ciascun contesto.
Non dimentichiamo poi algebra lineare e calcolo multivariata: sono alla base di molte delle competenze sopra descritte e possono diventare utili quando il team che lavora sui dati decide di sviluppare in house le proprie implementazioni.
C’è poi un aspetto da non trascurare: in un mondo ideale i dati sono correttamente identificati, sono completi, sono consistenti. Nel mondo reale, il Data Scientist si trova ad avere a che fare con l’imperfezione dei dati, vale a dire con valori mancanti, con le incongruenze, con le diverse formattazioni. Una su tutte? Il formato data: DD/MM/AA-AA/MM/DD-DDMMAA e potremmo proseguire aggiungendo per lo meno altre quattro o cinque opzioni.
Ecco dunque che si comincia a parlare di munging un acronimo che ha avuto origine da Mash Until No Good vale a dire quelle attività che consentono di partire dai cosiddetti raw data, i dati “grezzi” per trasformarli in dati omogenei nel formato, in grado dunque di essere portati nel processo di ingestion e di analytics.
Laddove i dati sono considerati vitali per prendere decisioni di business, non è sufficiente che ci sia qualcuno in grado di svolgere le operazioni di munging, wrangling, di analisi e di ingestion: visualizzare e comunicare i dati sono attività altrettanto critiche.
Visualizzare e comunicare i dati significa descrivere ad altri le tecniche applicate e i risultati ottenuti. Per questo è importante saper utilizzare strumenti di visualizzazione come ggplot o d3.js.
Data Scientist: una professione multidisciplinare
Data questa premessa, la domanda inevitabile è: come ci si prepara per diventare Data Scientist?
Quella del Data Scientist è una professione multidisciplinare, come evidenziano tutti i diagrammi con i quali da tempo si cerca di “incasellare” questa figura.
Fin dal 2012, ad esempio, Brendan Tierney elaborò questo diagramma di Venn, nel quale le relazioni multidisciplinari emergono in modo evidente, così come appare chiaro che al Data Scientist più che essere “esperto di tutto, maestro di niente”, viene chiesto di diventare “esperto di tutto e maestro di qualcosa”, a indicare la necessità di trovare, all’interno di un team – perché di teamwork sempre si parla, la propria specificità.
In questi anni, le definizioni, e i diagrammi, sono diventati più delineati e nel contempo più precisi.
Su Huffington Post Shelly Palmer presentò questo diagramma, tratto da un suo libro.
Nel 2016 Gartner presentò Tre lezioni che il CrossFit mi ha insegnato sulla scienza dei dati utile, di nuovo, a dimostrare la multidisciplinarietà della materia e soprattutto il fatto che la Data Science si colloca all’intersezione di tre discipline di business e che sarà ben difficile trovare una persona che le padroneggi tutte fin dall’inizio: molto più facile partire con una competenza di base ad esempio in statistica o informatica per poi costruirsi le altre sul campo.
Alla fine, dopo una fase di proliferazione di diagrammi di Venn, sempre più articolati e complessi, tutti sembrano però convergere su un ultimo schema, originalmente attribuito a Wikipedia, che presentiamo qui in calce e che riassume tutte le competenze che concorrono a “fare” un Data Scientist.
I percorsi di formazione per data scientist: Università, MOOC e Bootcamp
In sintesi estrema, tre sono i percorsi più comuni per diventare Data Scientist. Il primo è il classico percorso accademico che prevede la formazione con un corso universitario ad hoc.
Si parla di lauree specialistiche, da conseguire dopo la laurea triennale in informatica, matematica o statistica, così come di nuovi corsi che non certo a caso proprio negli ultimi due anni hanno cominciato a fiorire anche nel nostro Paese.
Il secondo percorso è quello che passa attraverso i cosiddetti MOOC, i Massive Open Online Courses, vale a dire corsi di formazione a distanza.
Ce ne sono molti e sulla Data Science sono operative realtà ben riconosciute, da Coursera a Udacity, da EdX (nata all’interno del MIT di Boston) a EMMA, nata invece in seno all’Unione Europea.
La terza opzione passa invece dai bootcamp, vale a dire attraverso una formazione accelerata e tipicamente esperienziale, con connotazioni pratiche e di progetto.
Non esiste una via migliore delle altre: è sempre necessario fare riferimento al contesto e alle necessità. In ogni caso ecco, schematicamente le differenze più evidenti tra i tre percorsi, tralasciando, evidentemente, l’aspetto dei costi che, con un corso universitario o post universitario sono sicuramente più ingenti e che sia nei bootcamp sia nei MOOC possono addirittura essere inesistenti.
Percorso accademico per diventare Data scientist
Tipologia di apprendimento teorico, guidato da docenti universitari
- Titolo di studio: Laurea
- Durata: 3+2 / 2 se post laurea
- Esperienze pratiche: Stage e progetti proposti dall’università
- Ideale per: Giovani e studenti che vogliono iniziare un percorso di studi strutturato, che li impegni a tempo pieno
Corsi MOOC per diventare data scientist
- Tipologia di apprendimento: Autoapprendimento, i corsi sono tenuti da docenti universitari
- Titolo di studio: Certificato
- Durata: da 6 a 12 mesi con un impegno orario nell’ordine di qualche ora alla settimana
- Esperienze pratiche: Nessuna, se non progetti sui base volontaria cui si voglia dedicare lo studente
- Ideale per: chi pur avendo già una occupazione decida di rafforzare le proprie competenze in ambiti che potrebbero consentirgli nuove esperienze lavorative
Federica, la piattaforma di e-learning dell’Università Federico II di Napoli ha messo a disposizione i MOOC free su corsi data science (cioè sono corsi liberi) che propongono un piano di studi personalizzabile e articolato. Si possono scegliere singoli corsi come: Programmazione in Pyton tenuto dalla prof.ssa Flora Amato, Basi di dati, corso tenuto dai proff. Vincenzo Moscato e Antonio Picariello o Algoritmi e strutture di dati del prof. Stefano Avallone.
Bootcamp per diventare data scientist
- Tipologia di apprendimento: esperienziale, guidato da Data Scientist
- Titolo di studio: nessuno
- Durata: qualche mese in base ai progetti da sviluppare
- Esperienze pratiche: lavora direttamente sui progetti
- Ideale per: chi voglia dare un boost alla propria professione, con un approccio che punta direttamente alle esperienze pratiche
Udacity: i corsi e i nanodegree per Data Analyst e Data Scientist
E’ ricco e articolato il portafoglio formativo in Data Science e Data Analysis di Udacity. Parliamo di MOOC, di durata variabile da due settimane a sei mesi. I nanodegrees prevedono certificazioni che non solo attestano la partecipazione al corso, ma anche l’effettivo livello di competenza raggiunto.
Tutte le informazioni si trovano qui.
Questo articolo è in costante aggiornamento.
Venezia: parte il Master per i Data Scientist del Turismo
Dura un anno, alterna formazione frontale in aula e formazione sul campo in azienda. Conta su quattro aziende sponsor che mettono a disposizione i loro dati e i loro casi reali perché si studenti si confrontino con le sfide vere del settore. E’ il Master in Data Science for Travel, Tourism and Culture, organizzato da Ciset e Università Ca’ Foscari a Venezia. Ne parliamo qui.