Tech InDepth

Archiviare bisogna… ma anche conviene

Le analisi Big data, specialmente sui dati non strutturati, fanno crescere i costi di gestione e archiviazione dei documenti, ma rendono gli archivi potenziali fonti d’informazione di notevole valore. Le tecnologie open source abilitano lo sviluppo di soluzioni, delle quali diamo una breve rassegna, che integrando la gestione di dati strutturati e non strutturati su grandi repository unificati permettono ai motori di ricerca e alle analytics di agire con grande efficienza ed eseguire analisi altrimenti impossibili.

Pubblicato il 27 Apr 2016

Giampiero Carli Ballola

C’è una tendenza da parte della funzione It di molte imprese a considerare l’archiviazione dei dati un aspetto secondario della cosiddetta ‘business technology’, quella parte dell’It cioè che dà valore aggiunto alle operazioni e contribuisce alle strategie dell’azienda. In effetti archiviare i dati inattivi dopo l’uso che ne è stato fatto dalle applicazioni ha un costo non indifferente in sistemi di storage e data management e non dà un beneficio visibile e immediato. Ma oltre al fatto che bisogna comunque farlo per conformità normativa e per documentazione interna, va considerato che archivi e data warehousing usati per le analisi di BI, per il Crm e altro, generano ancora un sensibile valore per il business. Con l’impiego dei big data i costi crescono, ma si moltiplica anche il potenziale valore residuo, per cui l’archiviazione diventa un compito primario che l’It deve svolgere con una nuova mentalità.

Gli sviluppi delle tecnologie open source Hadoop e NoSql permettono oggi di archiviare sia dati di tipo diverso, strutturati e non strutturati (come le e-mail), sia provenienti da diverse basi dati (applicazioni di Erp, Crm, Scm e fonti esterne all’impresa), in repository centralizzati dai quali si possono estrarre per essere consolidati e sottoposti alle applicazioni analitiche, che così alimentate lavorano molto più efficientemente che non ricevendo dati da più data mart o database ‘federati’. In questo modo, oltre che rispondere agli obblighi di legge e ai requisiti di data governance, l’archiviazione acquista il valore di un patrimonio informativo fondamentale per la gestione del business.

Grandi doti, ma c’è ancora da fare

Figura 1 – Framework del big data archiving. Fonte: Forrester

Riguardo agli aspetti specifici di volume ed eterogeneità dei big data le piattaforme open source, e Hadoop in particolare, hanno caratteristiche intrinseche di base e funzioni aggiunte dalle distribuzioni commerciali che semplificano le operazioni di archiviazione e analisi e le rendono più economiche e meglio adattabili ai bisogni dell’impresa. Prima di tutto si basano su standard aperti, per cui fruiscono dei continui miglioramenti prodotti dalle comunità di sviluppo tramite i progetti Apache Flume, Hive, Mahout, Sqoop e altri. Poi, mentre le piattaforme di data management tradizionale tendono a scalare in verticale ricorrendo a potenti appliance dedicate, per l’ambiente Hadoop è più facile scalare in orizzontale usando economici ‘commodity server’, Si riducono i costi di acquisto e di gestione, non ci si lega a un fornitore e si aumenta la flessibilità, aggiungendo le macchine necessarie al momento del bisogno. Infine, potendo trattare dati strutturati, semi-strutturati e non strutturati in modo unificato, gli ambienti NoSQL (tipo Cassandra, Hadoop/HBase e Mongo DB, per fare dei nomi oggi familiari) permettono di fare analisi altrimenti impossibili, incrociando dati storici con dati attivi forniti da log-file, clickstream e applicazioni business.

Con tutto ciò, considerando anche che si tratta di tecnologie in evoluzione, vi sono alcuni aspetti che vanno migliorati. Il primo è che l’integrazione dei vari tipi di dati è sì possibile ma resta un processo complesso e che richiede una buona dose d’intervento manuale. La buona notizia è che si sta lavorando intensamente sia presso le comunità di sviluppo (con i progetti Apache che abbiamo citato e altri come HCatalog, Spark e Storm), sia presso i fornitori di soluzioni di archiviazione e gestione integrate.

Il secondo nodo è la sicurezza, che va garantita oltre le funzioni-base di controllo degli accessi, autenticazione, criptatura e mascheramento oggi disponibili. Le soluzioni Hadoop e NoSQL mancano di una security omnicomprensiva, che abbia per esempio le funzioni di auditing end-to-end, protezione real-time e identificazione delle vulnerabilità che hanno le piattaforme di data warehousing tradizionali. Anche qui si lavora, ma nel frattempo, specie per i dati sensibili, bisogna prevedere l’adozione di misure di sicurezza mirate.

Uno sguardo all’offerta

Le considerazioni di cui s’è detto non sono sfuggite ai fornitori e il mercato dei sistemi di archiviazione per i big data sta avendo uno sviluppo che, secondo Forrester Research, è destinato ad accelerare man mano che le imprese organizzeranno processi, persone e tecnologie per ridurre l’intervallo tra le visioni date dalle analisi e le operazioni che ne conseguono. La società di ricerca ha quindi stilato un rapporto in cui si valutano i principali vendor del settore nell’ottica appunto di archiviazione funzionale al business e allo sfruttamento dei big data. Di queste considerazioni diamo qui una sintesi, premettendo che sono state aggiornate sull’evoluzione dell’offerta all’agosto di quest’anno.

Cloudera – Si tratta di una piattaforma affidabile che può essere implementata sia on-premise sia sul cloud. L’architettura di Cloudera Enterprise Data Hub si basa sull’omonima distribuzione Hadoop e archivia i dati in modo economico e sicuro anche nel lungo termine, rendendoli disponibili a gran parte delle applicazioni analitiche esistenti, alle quali si connette direttamente. I suoi punti di forza sono la scalabilità della piattaforma Hadoop, l’accesso Sql, il motore di ricerca integrato e la sicurezza. Volendo realizzare su Cloudera una soluzione in grado di automatizzare end-to-end i processi di data retention, ricerca, discovery e custodia legale ci si può servire di strumenti Apache come Flume, Hive, Kafka e Sqoop.
Commvault – Nata nel 1996, la società fornisce soluzioni big data dal 2011 e offre un software che unifica data e information management in modo che da una singola console si possono gestire sia le attività di archiviazione (backup, recovery e replication), sia quelle di ricerca e analisi. Oltre a ciò, altri punti di forza della piattaforma stanno nella capacità di ottimizzare lo sfruttamento dell’ambiente big data trattando dati strutturati e non strutturati e una data retention basata sui contenuti. La nuova release del software prevede infine l’integrazione nativa con Hadoop.
Emc – Vendor storico nei grandi sistemi d’archiviazione, la sua offerta per i big data è relativamente nuova e presenta l’integrazione nativa con Hdfs, il file system distribuito di Hadoop. La soluzione big data Emc, comprende il software InfoArchive per la gestione dei documenti ed è agnostica rispetto ad applicazioni e strumenti tecnologici, nel senso che l’alimentazione delle piattaforme Hadoop e NoSql può servirsi dei tool di data integration e di Etl di diversi fornitori. Il punto forte di Emc sta nella riconosciuta capacità di unificare dati strutturati e non strutturati in un solo repository e di poter combinare più tipi di dati in un singolo business-record. L’offerta Emc big data può contare anche su Isilon Archive, software che lavora sui sistemi per lo storage scale-out Isilon e permette di gestire sino a 50 petabyte in un singolo cluster.
Hp – Tramite la Big Data Reference Architecture le soluzioni di archiviazione e storage Hp oggi si integrano con le distribuzioni Hadoop di Cloudera, Hortonworks e MapR. Si tratta di piattaforme collaudate, sul mercato da più di dieci anni, che si possono avvalere della potenza dei sistemi hardware Moonshot e Apollo e della velocità del networking Hp. Ma il maggior valore dell’offerta big data Hp sta nel poter scalare dinamicamente grandi volumi di dati in una piattaforma che fornisce avanzate funzioni di ricerca e analisi combinate a un portafoglio completo di soluzioni e servizi di information governance.
Hortonworks – La società offre da circa tre anni una piattaforma di gestione big data che conta sulla propria distribuzione Hadoop, ottimizzata per l’archiviazione e le analisi, e le cui funzionalità indirizzano i requisiti fondamentali di sicurezza e data governance. Le doti caratteristiche dell’offerta Hortonworks stanno nella capacità di centralizzare lo storage, la elaborazione e l’accesso ai dati e soprattutto nel fatto che il software è basato al 100% su componenti open-source ed è ingegnerizzato nelle sue applicazioni lavorando con Emc, Hp, Informatica, Oracle, Sap, Teradata e altri partner tecnologici. Hortonworks è presente in Italia attraverso la partnership con eCube (www.ecubecenter.it).
Ibm – Sul mercato da più di 17 anni, la potente soluzione di archiviazione dati di Ibm dal febbraio di quest’anno si può integrare con la piattaforma di analisi BigInsights, basata su Hadoop e lanciata 18 mesi fa. Oggi l’interesse primario di Ibm in area big-data si focalizza sulle analytics, per le quali, con BigInsight, offre una soluzione tecnologicamente molto avanzata, che comprende moduli per l’accelerazione delle query Sql, per la gestione dele risorse e dei flussi di lavoro e per l’ottimizzazione delle analisi sugli obiettivi aziendali. Quest’ultimo modulo, BigInsight Data Scientist, sfrutta tecnologie di machine learning con decine di algoritmi specifici per attività e settori d’industria. Quanto all’archiviazione, il plus di Ibm sta negli aspetti di governo e conformità normativa, con supporto alle controversie legali. È possibile, e secondo Forrester molto probabile, che su questi due pilastri, analisi e archiviazione, Ibm sviluppi una soluzione big data Hadoop-based omnicomprensiva.
Informatica – La società ha realizzato una versione Big Data Edition del proprio diffuso software di archiviazione che copia e sposta i dati da e verso Hadoop in modo nativo (nei formati Orc (Optimized Row Columnar) e Apache Parquet) e una volta in Hadoop offre funzioni di smistamento, pulizia e integrazione. Inoltre, la soluzione di storage a lungo termine Data Vault sfrutta il file system Hadoop per beneficiare dei risparmi in infrastruttura che ciò consente. I principali vantaggi della soluzione Informatica stanno nella connettività ad alte prestazioni con fonti dati eterogenee, nell’elevato livello di compressone dei dati e nelle funzioni di compliance incorporate.
MapR – Questa distribuzione Hadoop ha funzioni di archiviazione native alla piattaforma stessa (progettata in un’ottica di supporto ai carichi di lavoro in produzione) che offrono dei vantaggi unici quanto a volumi trattabili, multiutenza, controllo sulla collocazione fisica dei dati, coerenza degli snapshot e compressione. Ciò la rende adatta al disaster recovery, al capacity management e ad altri compiti dove contano la robustezza e il controllo sui dati. Non è presente in Italia ma ha una sede a Parigi per la Francia e il Benelux.
Sap – L’azienda ha lavorato con i partner Hadoop per oltre due anni e con la suite S/4Hana lanciata nel febbraio di quest’anno, ha costruito un’offerta che va ben oltre l’archiviazione, creando un ambiente che se completamente implementato (la suite è modulare), tratta i big data in modo unitario e in processi integrati, dall’acquisizione e utilizzo nelle attività operative sino alle analisi predittive per la gestione strategica. Il tutto sfruttando la potenza delle tecnologie in-memory. Poiché di S4/Hana si è più volte scritto su queste pagine, ricordiamo solo, per gli aspetti di archiviazione e big data, le potenti funzionalità di conformità legale e di e-Discovery della soluzione Sap Ilm (Information Lifecycle Management) e, soprattutto, che anche senza muovere alla nuova suite, Sap offre varie modalità d’integrazione con il framework Hadoop per i suoi prodotti.
Solix Technologies – Nel 2014 la società californiana di Enterprise Data Management ha presentato Solix Big Data Suite, una soluzione per data-lake (repository a struttura ‘piatta’ anziché gerarchica) su Hadoop con capacità di archiviazione e analytics che l’hanno posta nel quadrante ‘leader’ del settore. Tra le migliori caratteristiche del pacchetto, quelle di applicare best practices Ilm per la Data Retention, archiviando i dati, strutturati e non strutturati, secondo le politiche e le regole di business della società utente, e di avere capacità di reporting e ricerca full-text. Solix non è presente in Italia ma ha aperto nel 2012 una sede a Ginevra che copre anche il nostro Paese.
Teradata – Con l’acquisizione di RainStor, completata lo scorso dicembre, la storica casa di Enterprise data warehousing e analytics è entrata nel mercato delle soluzioni big data forte di una tecnologia tra le più collaudate nell’archiviazione su Hadoop. Il software Teradata RainStor gira in modo nativo sulle distribuzioni Cloudera CDH e Hortonworks HDP e i suoi punti forti stanno nelle funzioni di sicurezza e auditing incorporate, nell’alta compressione dati e nell’accesso con interfacce standard ai repository BI Tools, Hive, Map Reduce ed SQL. Infine Teradata ha mantenuto la sua strategia per l’hardware dedicato e offre quindi una Teradata Appliance per Hadoop.
ZL Technologies – Lo ZL Unified Archive è una potente soluzione che indirizza i bisogni di archiviazione, gestione ed analisi di grandi volumi di e-mail e altri documenti testuali, oltre a dati strutturati. Comprende inoltre funzioni di e-Discovery, per gli aspetti legali e di conformità, nonché di ottimizzazione dello storage. L’ultima versione, la 8.0, è compatibile con le maggiori distribuzioni Hadoop e presenta un inedito motore di ricerca analitica capace di trattare miliardi di righe e migliaia di colonne. Il software ZL è fruibile anche come hosted service ed è cloud-ready per i servizi Amazon e Rackspace. La società agisce commercialmente tramite Var, nessuno dei quali risulta però operare in Italia.

E per gli utenti Oracle…

Nell’elenco dei vendor considerati dagli analisti Forrester come fornitori di soluzioni di archiviazione big data manca un nome di spicco, e cioè Oracle. Il motivo è semplice: sta nella strategia Oracle di proporre le proprie soluzioni di archiviazione e di analisi sui big data come complementari alla propria offerta database, business applications e analytics. Si tratta di una scelta logica da parte di una società che in queste tecnologie ‘mainstream’ ha non solo il proprio core business ma, specie per l’area database, un vastissimo bacino di utenza. Le soluzioni Oracle orientate all’archiviazione, gestione e analisi big data, che comprendono il database NoSQL, i connettori Hadoop ed un ampio set di analitiche, sono quindi indirizzate alla propria clientela con tecnologie ottimizzate ed integrate al database Oracle 12c e alle potenti appliance Exadata/Exalytics e, per la parte Hadoop, alla distribuzione Oracle-specific di Cloudera.