Volume, velocità e varietà (3V dei big data) danno il titolo a un celebre report del 2001, a firma di Doug Laney, allora vice presidente e Service Director dell’azienda Meta Group.
Il rapporto prende infatti il titolo Il Modello delle 3V, in cui Laney le utilizza come modello paradigmatico, semplice e sintetico, per definire dati nuovi, i big data. Essi sono frutto dell’incremento sia delle fonti informative che dell’evoluzione tecnologica, tanto che oggi si parla di 5 V e già è spuntata perfino una sesta V…
Ecco quali sono le 3 V e le 5 V nei big data, vediamole nei dettagli.
Le 3 V dei big data
Le 3V dei big data sono volume, velocità e varietà. Sono tre variabili che definiscono i big data. Le tre variabili descrivono tre caratteristiche dei big data.
Secondo Il Modello delle 3V, dal titolo del report del 2001, le ingenti masse di dati si definiscono big data se presentano almeno una delle tre peculiarità: volume, velocità e varietà.
La prima V: il volume
Il volume si riferisce alla grande mole di informazioni, tale da renderne impossibile la raccolta tramite tecnologie classiche. Dunque, è frutto delle numerose attività digitali che svolgiamo nell’arco delle 24 ore della nostra vita quotidiana e che generano dati.
Il volume di dati registra incrementi continui. Secondo Idc, i dati sono in perenne crescita: nel 2019 la loro ecosfera, a livello globale, raggiungeva i 40 Zettabyte. Entro il 2025 questo valore è destinato a quintuplicarsi. Nel 2020 il valore era quantificato in 44 di più dell’ecosfera dei dati del 20019.
Dal momento che non è facile individuare un tetto sopra il quale i dati si definiscono big data, finora gli esperti del settore hanno assunto questo ipotetico valore limite alla soglia che supera i 50 Terabyte o i volumi di dati con un tasso di crescita superiore al 50% annuo.
La seconda V: la velocità
L’origine, la nascita e l’acquisizione dei dati avviene in maniera sempre più rapida. La velocità, dunque, è il secondo parametro con cui è possibile identificare i big data.
A spingere la velocità e a ingranare la quinta è la diffusione di device dotati di sensori (IoT, smart home eccetera) dedicati alla raccolta di dati in tempo reale. Questa proliferazione di dispositivi con sensori è un vero e proprio fattore di accelerazione.
Le aziende devono dunque cimentarsi in nuove sfide: non solo devono raccogliere i dati, che registrano un’acquisizione sempre più veloce, ma anche analizzare i big data in real-time (attraverso la real-time analytics).
L’obiettivo delle imprese consiste infatti nel rendere il processo decisionale il più tempestivo possibile, offrendo ai decision-maker la maggiore rapidità e immediatezza di azione e reazione agli eventi che si verificano in ogni business.
La terza V: la varietà
La varietà si riferisce alle diverse tipologie di dati disponibili, che provengono da fonti eterogenee, sempre più numerose. Tali fonti in crescita possono essere sensori IoT, social media, open data, oltre ai gestionali aziendali e ai sistemi transazionali.
La varietà delle fonti eterogenee era già stata stigmatizzata nel 2008, agli albori della scalata dei social network, da Chris Anderson sul magazine Wired, con l’espressione “More isn’t just more. More is different”. Significava che più non è solo più, in termini quantitativi, ma “più” vuol dire aumentare la varietà delle fonti eterogenee.
Il modello evolve: da 3 a 5 V
Oggi al paradigma di Laney, gli esperti hanno aggiunto altre due variabili. Infatti, le 3V si sono arricchite tanto da parlare di un upgrade, il Modello delle 5V dei Big Data.
La quarta V: valore
Dalla definizione dei big data come il nuovo petrolio, discende il loro valore. Tuttavia la raccolta dei dati non è sufficiente, perché essa non assicura la possibilità di estrarre informazioni, ma soprattutto conoscenza.
I dati rappresentano un’entità, una transazione, un fenomeno o un avvenimento in maniera codificata. L’informazione non è però una rappresentazione codificata, bensì un processo di data analytics. Spesso un’informazione ha significato solo per chi trae valore dalla generazione di quei dati. La conoscenza, invece, emerge quando le informazioni aiutano il processo decisionale, dunque ad assumere provvedimenti, prendendo decisioni da concretizzare in azioni. Dunque la conoscenza è frutto del processo che porta le informazioni alla messa in pratica, dunque all’utilizzo concreto dei dati raccolti nella fase iniziale.
La quinta V: veridicità
I dati devono essere affidabili e fotografare la realtà. Con l’avvento dei big data, la sfida è diventata più complessa e difficoltosa. Infatti, richiedono una gestione dei dati, mentre aumenta la rapidità con cui avviene la raccolta dei dati e proliferano le fonti. La data quality e l’integrità delle informazioni sono pilastri indispensabili per effettuare analisi attendibili e proficue.
Per alcuni esiste anche la sesta V, la variabilità. Essa dipende dal fatto che i dati, in numero crescente, disponibili in differenti formati e derivanti da diversi contesti, sono soggetti a cambiamenti del loro significato. La variabilità ha dunque un impatto significativo anche nell’interpretazione. Questo aspetto è destinato ad accentuarsi, se a prendere in esame questo lato non è soltanto il data scientist o il data engineer, ma un utente della linea di business aziendale.
Perché conoscere le 5 V è importante
Conoscere le 5 V dell’omonimo modello applicato ai big data è di fondamentale importanza perché aiuta a comprendere non solo il ruolo dei big data, ma soprattutto a mettere a fuoco il processo che permette di trasformarli in informazioni da impiegare nei processi aziendali, al fine di costruire conoscenza per migliorare le prestazioni aziendali, attraverso i big data analytics.
Infatti, i Big Data Analytics consentono a un’azienda, che abbia adottato un approccio data-driven, per estrarre valore, migliorando il processo decisionale, prendendo decisioni tempestive, consapevoli e soprattutto basate sui dati.
Il boom della digital transformation sta provocando una crescita inarrestabile dei dati. Ma per avere la garanzia di utilizzare dati puliti, affidabili e corretti, per migliorare in azienda la customer experience, è imprescindibile conoscere le 5 V, padroneggiarle. L’obiettivo è eseguire modelli predittivi, ottenendo insights mirati, secondo una precisa data strategy.
Infine costruire i dataset serve per darli in pasto agli algoritmi di intelligenza artificiale, per ottenere informazioni utili, comprendere abitudini, preferenze commerciali. Oppure sono cruciali per educare algoritmi di apprendimento automatico e reti neurali artificiali, popolari nei sistemi di riconoscimento visuale.