Hortonworks: ‘connected data platforms’ per le architetture dati open source

Gestire in modo fluido e sicuro i dati ‘a riposo’ e quelli ‘in movimento’ attraverso architetture open connesse che abilitano lo sviluppo di moderne App basate sui dati. È questa la vision dell’azienda oggi tra i primari contributori attivi delle community Apache Hadoop.

DUBLINO – È nata nel 2011 ma l’Ipo (offerta pubblica iniziale dei titoli della società che intendeva quotarsi per la prima volta su un mercato regolamentato) è avvenuta nel 2014 portando Hortonworks ad essere classificata dalle analisi di Barclays [l’istituto finanziario ha al proprio interno un team di analisti e ricercatori che tengono monitorato il mercato, in questo caso quello delle software house; analisi del 2015 – ndr] come la software company ‘più veloce in termini di crescita’, la prima ad aver raggiunto i 100 milioni di dollari in soli 4 anni dalla nascita. “Nel 2015 abbiamo raggiunto i 122 milioni di fatturato e prevediamo di raggiungere il ‘cash flow breakeven’ già nel 2016”, afferma Herb Cunitz, Presidente di Hortonworks durante un incontro riservato alla stampa nel corso dell’Hadoop Summint 2016 tenutosi pochi giorni fa a Dublino.

Herb Cunitz, Presidente di Hortonworks

Lascia che siano i numeri a dimostrare la significativa crescita della società, Cunitz, che mostra un puzzle aziendale oggi composto da circa 800 dipendenti e presenza in 16 paesi, oltre 1600 partner tecnologici, circa 800 clienti mondiali tra i quali – solo per citare alcuni nomi – Ing, Yahoo, WorldPay, Bloomberg, eBay, Centrica, RoyalMail…. “55 delle 100 aziende top che operano nel mercato dei servizi finanziari sono nostre clienti, così come 75 dei top 100 retailer mondiali, 8 delle primarie case automobilistiche mondiali che rientrano nella classifica top 20, nonché 8 delle 9 compagnie Telco più grandi operanti nel Nord America”, descrive con orgoglio Cunitz. “Numeri che arrivano dalla nostra completa focalizzazione sull’open source e dal nostro impegno diretto all’interno del progetto Hadoop nella community Apache [ricordiamo che Apache Hadoop è un framework che supporta applicazioni distribuite con elevato accesso ai dati – permette alle applicazioni di lavorare con migliaia di nodi e petabyte di dati – mediante licenza di utilizzo ‘libera’; Hadoop è stato ispirato dalla MapReduce di Google e dal Google File System ed è un progetto della community open source globale Apache all’interno della quale tutti i contributori usano il linguaggio di programmazione Java – ndr]. Siamo tra i principali contributori attivi della community al punto da poterne anche ‘influenzare’ la roadmap portando all’interno della comunità globale le richieste e le esigenze delle aziende. Infine, siamo anche un’azienda che proprio dalla community attinge nuovi skill.

Indice degli argomenti

Servono piattaforme dati ‘connesse’

Scott Gnau, Cto di Hortonworks

Le motivazioni della fortissima focalizzazione su Hadoop il presidente la spiega offrendo anche una panoramica delle strategie future dell’azienda: “Hadoop è indubbiamente il framework di riferimento per l’analisi dei Big data, che noi identifichiamo come ‘data-at-rest’ (a riposo) e che oggi vale già oltre 50 miliardi di dollari a livello globale; la crescita esponenziale dei dati disponibili e l’arrivo dell’IoT impongono nuove sfide alle aziende, in particolare quelle legate all’opportunità di poter catturare, gestire ed analizzare anche i cosiddetti ‘data-in-motion’, cioè in movimento; sfida che dal nostro punto di vista può essere vinta puntando su un ecosistema di data platforms connesse che è ciò su cui sta puntando la nostra azienda”.

Cosa significa e di che cosa si tratta esattamente lo chiediamo al Cto di Hortonworks, Scott Gnau, che incontriamo a margine della conferenza: “la sfida crescente degli analytics, soprattutto con l’arrivo dell’IoT, non deriva solo dal volume e varietà di dati derivanti dai device connessi ma anche e soprattutto dal fatto che i processi comunicativi (i flussi di scambio di dati) sono multi-direzionali e in streaming. I sistemi tradizionali gestiscono centralmente i dati attraverso ‘flussi lineari’, approccio inadeguato laddove i flussi diventano multi-direzionali”, spiega Gnau. “La sfida è allora riuscire ad estrarre valore in termini di informazioni e conoscenza attraverso la combinazione dei data-at-rest e dei data-in-motion, quella che noi chiamiamo ‘actionable intelligence’ e che rappresenta di fatto il substrato necessario alle moderne applicazioni basate sui dati (per esempio le nuove soluzioni di analisi real-time dei dati)”.

La risposta tecnologica a questo approccio si chiama Hortonworks DataFlow (HDF), piattaforma integrata basata sul framework Hadoop e il progetto Apache NiFi che permette l’acquisizione dei dati da una moltitudine di sorgenti (sempre connesse, data-in-motion, o disponibili saltuariamente, data-at-rest) e il loro ‘trasporto’ verso le applicazioni in uso dagli utenti (analytics ma non solo, basti pensare ai moderni sistemi Crm o di smart supply chian management). “HDF è una piattaforma unica che fornisce funzioni di data acquisition, event processing, trasporto e delivery di dati gestiti attraverso complessi flussi di dati generati da qualsiasi fonte, risulta quindi la soluzione ideale per l’IoT”, fa presente Gnau.

Le novità della Hortonworks Data Platform

Il palcoscenico di Dublino è l’occasione giusta per Hortonworks anche per presentare le ultime novità in termini di capacità e funzionalità della propria piattaforma di riferimento per la gestione dei dati, la Hortonworks Data Platform (HDP) con la distribuzione di tipo enterprise della soluzione sviluppata dalla community open source. Ecco di seguito una breve panormaica:

Integrazione di Apache Ranger per la protezione dei dati e di Apache Atlas per la governance: la piattaforma ora integra in modo nativo funzionalità per l’implementazione di policy per la protezione dei dati basate su classificazioni dinamiche; in pratica si sfruttano le caratteristiche di Atlas [Atlas è un set scalabile ed estensibile di servizi di governance a supporto delle esigenze di compliance basate su tassonomie e policy di metadatazione nella gestione dei dati su Hadoop – ndr] per classificare e assegnare tag di metadati che vengono poi applicati utilizzando Ranger per abilitare diverse politiche di accesso [Ranger è un framework centralizzato per la security su Hadoop che consente di gestire granularmene i livelli di autorizzazioni per l’accesso ai dati di componenti quali HDFS – Hadoop Distributed File System, Hive – infrastruttura datawarehouse costruita su Hadoop per fornire riepilogo dei dati, interrogazione e analisi – e HBase, il database ‘non-relazionale’ Hadoop – ndr].

Provisioning automatico in ogni tipo di cloud: si chiama Cloudbreak ed è un nuovo tool integrato nell’HDP sviluppato per semplificare e automatizzare il provisioning di cluster di dati nel cloud e mettere a punto l’utilizzo delle risorse sul cloud. La versione 1.2 del tool, già disponibile, amplia il supporto per ambienti OpenStack in cloud privati nonché il provisioning su Windows Azure Storage Blob (WASB) per la piattaforma Azure di Microsoft.

Semplificazione delle operazioni cluster: in questo caso si tratta di cruscotti pre-configurati con indicatori chiave delle prestazioni per il monitoraggio del funzionamento dei cluster (in particolare HDFS, Hive, HBase e Yarn – Yet Another Resource Negotiator, il gestore centralizzato di risorse del cluster Hadoop: qualsiasi job venga processato all’interno del cluster viene gestito da Yarn che utilizza HDFS per indirizzare l’accesso al dato). La release arriva dal progetto Apache Ambari il cui obiettivo è rendere più semplice la gestione di Hadoop con lo sviluppo di software per il provisioning, gestione e monitoraggio dei cluster di Apache Hadoop. Ambari di fatto fornisce un sistema di management con interfaccia utente intuitiva e facile da usare supportata da RESTful APIs.

Visualizzazione per Data Science: in questo caso il tool arriva dal progetto Apache Zeppelin (in realtà ancora in ‘incubazione’ all’interno della community open source) che riguarda lo sviluppo di un’interfaccia utente basata su browser per offrire ad analisti e data scientists di ‘esplorare’ in modo interattivo i dati ed eseguire in modo semplice analisi sofisticate. In particolare la community sta lavorando per l’integrazione di engine basati sul Machine Learning.

L’alleanza con Pivotal e il focus sulla sicurezza… verso il cognitive computing

A Dublino i top executives dell’azienda hanno infine dato visibilità ad alcuni importanti annunci, primo fra tutti l’alleanza con Pivotal (azienda di Emc): “Di fatto la nostra piattaforma HDP rappresenterà la base tecnologica di riferimento di Pivotal con supporto SQL nativo su Hadoop”, spiega Gnau. “Forniremo il supporto necessario alle aziende, a partire dal secondo trimestre di quest’anno, per integrare Hortonworks HDB (Hadoop-native SQL Data Base) con tecnologia Apache HAWQ (Hadoop native SQL query engine) all’interno della piattaforma per l’analisi dei dati Pivotal”.

Come accennato, il focus sulla sicurezza ha avuto un peso rilevante nel corso di tutto il summit irlandese; l’annuncio più importante riguarda il progetto, ancora in incubazione all’interno della comunità globale di sviluppatori, Apache Metron: “il progetto mira ad utilizzare tutte le potenzialità dell’analisi Big data in real-time attraverso la combinazione data-at-rest e data-in-motion per sviluppare nuovi tool nell’ambito della Security Incident Event Management (sistema di gestione degli incidenti di sicurezza) al fine di rendere la cybersecurity sempre più pro-attiva”, ci racconta Gnau. “Prevediamo che anche in quest’area il prossimo step sarà l’integrazione con engine sofisticati come quelli del Machine Learning e del Cognitive Computing”.