Le aziende si trovano oggi a dover gestire grandi volumi di dati provenienti dalle fonti più disparate e le complessità di analisi crescono a dismisura.
Hadoop è una tecnologia che offre già soluzioni per le problematiche legate ai Big data, ma l’analisi SQL può essere un valido alleato per farsi largo in una giungla crescente di informazioni. Secondo gli esperti, sono essenzialmente tre i punti chiave da tenere a mente quando si parla di piattaforme SQL-on-Hadoop.
#1 I programmatori SQL potrebbe essere gli eroi che arrivano in soccorso di Hadoop
Finora, Hadoop è stato in gran parte competenza di pochi programmatori con avanzate capacità di scrittura relativamente a programmi come MapReduce, un framework software brevettato e introdotto da Google per supportare la computazione distribuita su grandi quantità di dati in cluster di computer. Ispirato alle funzioni map e reduce, il framework ha librerie scritte in C++, C#, Erlang, Java, Ocaml, Perl, Python, Ruby, F# e altri linguaggi di programmazione.
In realtà non solo non ci sono molti programmatori con competenze così verticali e anche per questo motivo assumerli ha costi particolarmente elevati.
L’integrazione di SQL, il linguaggio di programmazione standard per i database relazionali, con Hadoop apre le funzioni di questo strumento all’esercito di sviluppatori e analisti che detengono forti competenze in ambito SQL e operano già all’interno della maggior parte delle organizzazioni.
#2 La partita non si gioca solo più in termini di batch
MapReduce supporta solo i carichi di lavoro in batch che girano su una pianificazione predefinita. Anche alcune piattaforme SQL-on-Hadoop sono orientate all’elaborazione in batch, ma altre supportano query interattive e create ad hoc utilizzando gli strumenti tradizionali di Business Intelligence aziendale. Ciò consente agli utenti di sviluppare una Business Intelligence self-service e analitiche in real-time contro i dati in cluster Hadoop.
#3 Ci sono un sacco di opzioni su cui riflettere
Oggi sono disponibili diversi strumenti di SQL-on-Hadoop, alcuni open-source e altri in commercio; la maggior parte è ancora immatura e alcuni supportano sottoinsiemi funzionalità SQL. Poiché questi strumenti sono specializzati in una gamma di diverse applicazioni, prima di scegliere uno, i potenziali utenti hanno bisogno di capire le funzionalità e gli usi ottimali di ognuno.