Archiviare il dato diventato oggetto

Crescita più che esponenziale della mole di dati non strutturati da archiviare, disponibilità 24×7 e in tempo reale, massima garanzia dell’integrità e univocità dei dati archiviati, conformità alle normative sulla conservazione dei dati. queste le  esigenze alle quali le soluzioni storage devono dare risposta

Pubblicato il 22 Mag 2005

È noto che le esigenze di archiviazione, conservazione e recupero dei dati sono radicalmente cambiate dall’avvento di Internet. Non ci dilunghiamo quindi su questo aspetto, già ampiamente indagato, ma ci limitiamo a riassumerne i due principali effetti: aumento più che esponenziale della quantità di dati da archiviare; necessità di disponibilità del dato 24×7 e in tempo reale. Per fronteggiare il primo, la risposta risiede in sistemi di archiviazione che rendano disponibili quantità sempre maggiori di terabyte, ma dato che lo spazio fisico di archiviazione costa è stato necessario pensare a un utilizzo diversificato delle risorse di storage in base al valore dell’informazione da archiviare (a proposito della gestione del ciclo dell’informazione in base al valore, ossia l’Information Lifecycle Management, si veda l’articolo pubblicato su ZeroUno n. 279): ai dischi ad elevate performance dei sistemi di storage enterprise si sono dunque affiancati dischi di “derivazione” desktop come i Serial Ata e sono tornate fortemente in auge le soluzioni basate su nastro (più volte nel passato dichiarate alla soglia del tramonto, ma di fatto ineguagliabili in termini di rapporto costo-prestazioni per determinate applicazioni), per non parlare dei Nas (Network Attached Storage) che, contrariamente a quanto si pensava con l’avvento delle San (Storage Area Network), non sono sistemi a queste alternativi, ma complementari. Conseguenza di questa situazione è la crescente complessità delle risorse di storage da gestire. Effetto della necessità di disponibilità del dato 24×7 e in tempo reale è stata la rimessa in discussione DI tutte le soluzioni di backup e recovery dove l’aspetto più eclatante è la drastica riduzione dei tempi di backup e di quelli di ripristino. Il backup diventa un’operazione da gestire in modo diversificato: nella stessa azienda vi possono essere archiviazioni che possono essere tranquillamente eseguite con le “vecchie” modalità di backup (copie notturne che durano ore) che convivono con archiviazioni che necessitano di ben altre modalità a garanzia dell’immediata disponibilità del dato aggiornato: si sono dunque sviluppate soluzioni di backup e recovery che garantiscono diversi livelli di servizio a seconda delle specifiche necessità e che consentono di copiare e archiviare solo i blocchi modificati successivamente all’ultimo backup incrementale.

capacità storage richiesta dalle informazioni referenziate

Fonte: Enterprise Storage Group

requisiti richiesti alle soluzioni storage

Fonte: Enterprise Storage Group

Le caratteristiche dei dati
Questa situazione generale, che riguarda tutti i dati digitali presenti in azienda, strutturati e non strutturati, si complica maggiormente nel caso dei secondi. Come abbiamo visto negli articoli precedenti, le informazioni non strutturate (o fixed content o informazioni referenziate) sono quelle informazioni non modificabili nel tempo, che devono essere disponibili con possibilità di accesso veloce e avere un referimento univoco; oltre a queste caratteristiche, diciamo di tipo “logico”, ce ne è un’altra, certo non secondaria, di tipo “fisico” e che riguarda la dimensione di questi dati, che è generalmente di gran lunga maggiore di quella dei dati strutturati. Per quanto riguarda gli aspetti quantitativi è interessante vedere la crescita ipotizzata dall’Enterprise Storage Group (oggi Enterprise Strategic Group www.enterprisestrategygroup.com) nel 2002 (vedi figura 1): nel 2001, anno in cui le informazioni referenziate occupavano il 37% delle capacità storage, Esg prevedeva che entro il 2004 questa percentuale avrebbe raggiunto il 51%, per arrivare al 54% entro la fine del 2005; tutti gli operatori del settore concordano nel ritenere questo trend confermato, se non addirittura sottostimato.
Un “sottoproblema”, se così si può dire, è quello della conformità alle normative, che può riguardare sia dati strutturati che dati non strutturati ma che dal punto di vista dell’archiviazione e del recupero obbliga a trattare tutti i dati come se appartenessero al secondo gruppo, con l’aggiunta di richieste più “stringenti” di non modificabilità del dato.
Quali debbono dunque essere le caratteristiche delle soluzioni storage per rispondere a queste esigenze? Sulla base di interviste effettuate a responsabili It e top management di varie aziende, Esg ha classificato le caratteristiche prioritarie che questi sistemi devono avere (si veda figura 2); in particolare i sette attributi ritenuti maggiormente significativi sono: una indicizzazione e un indirizzamento che permettano di individuare in modo univoco ogni singola informazione (documento, immagine, video, ecc.) senza duplicati; un costo complessivo di gestione basso; la capacità di mantenere le informazioni memorizzate e integre per parecchio tempo; elevate prestazioni e quindi un tempo di reperimento molto breve; notevoli doti di scalabilità per consentire una più semplice ed organizzata crescita della capacità storage in funzione dell’aumentare dei dati; integrazione con le applicazioni appositamente sviluppate per gestire queste informazioni; facilità di gestione con strumenti integrati e di semplice uso. Si noti che se per quanto riguarda Tco, scalabilità, performance e facilità di gestione si tratta di esigenze che si manifestano per qualsiasi tipo di dato, gli altri tre di questi sette attributi si riferiscono unicamente e specificatamente alle informazioni referenziate.

La risposta dei fornitori
I fornitori di storage hanno affrontato questa problematica in differenti modi (sia differenti tra loro sia diversi all’interno della propria offerta) e la spiegazione delle diverse tipologie di offerta necessiterebbe di molte pagine. Quello che abbiamo cercato di fare nel poco spazio a disposizione è stato quindi identificare quelle soluzioni che sono state specificatamente studiate per affrontare il tema dell’archiviazione, della conservazione e del recupero dei dati non strutturati, tenendo però sempre ben presente che nell’implementazione di qualsiasi strategia storage è indispensabile identificare bene prima quali sono i requisiti dei livelli di servizio che devono essere garantiti.
Emc è stata di fatto la prima ad avere sviluppato un sistema, Emc Centera, appositamente studiato per le informazioni referenziate, coniando nel contempo l’acronimo Cas (Content Addressed Storage): l’oggetto da archiviare viene acquisito e inviato al sistema che lo memorizza assegnadogli un identificativo univoco, chiamato Content Address, che viene memorizzato in un database e che rimarrà il solo e unico elemento che identifica quella informazione. Al sistema standard si è successivamente affiancata una nuova versione, Emc Centera Compliance Edition, specificatamente studiata per rispondere alle esigenze di conformità alle normative vigenti nei diversi paesi.
La soluzione preconfigurata e integrata Ibm TotalStorage DR550 Retention indirizza le problematiche di memorizzazione dei dati non cancellabili e non modificabili e si compone di un server, uno storage a dischi Serial Ata che può anche essere collegato a librerie a nastri Worm (Write once read more). La gerarchia interna delle risorse viene gestita dal software Tivoli Storage Manager for Data Retention, progettato per tutelare l’integrità dei dati e applicare automaticamente le policy stabilite per la loro conservazione, impedendone la modifica dopo l’archiviazione; il software consente inoltre di sospendere a tempo indeterminato la cancellazione dei dati, funzione particolarmente necessaria per le aziende soggette a cause legali, controlli o revisioni e devono quindi poter proteggere i dati già conservati per tutta la durata di un accertamento o di una verifica. È comunque importante ricordare che tutte le componenti della DR550 sono vendibili separatamente.
Presentato un anno fa, Hp Storageworks Riss (Reference Information Storage System) è il primo prodotto di quella strategia “storage grid” annunciata con grande enfasi da Hp e si basa sulla ripartizione di storage, ricerca e recupero su una serie di nodi di calcolo specifici (chiamati smart cell storage) ciascuno dei quali si compone di un dispositivo che integra intelligenza di calcolo e storage; ogni cella può essere configurata in modo tale da rendere Worm i relativi dischi.
Storagetek ha rilasciato Lifecycle Fixed Content Manager 100. Anche in questo caso si tratta di una soluzione che consente l’adeguamento alle normative relative alla protezione dei dati; è infatti una soluzione che, agendo via software sul controller dei dischi, genera il bloccaggio di alcuni settori del disco stesso consentendo così di aggiungere dati, ma impedendo la cancellazione di quelli già memorizzati. Unitamente alle funzionalità Worm del disco, la soluzione si configura verso i server con una piattaforma Nas (compatibile con il mondo Unix e Windows), attraverso connessione Ip. La presenza del software Asm embedded nell’appliance stessa assicura l’integrazione nella strategia Ilm, ovvero la movimentazione gerarchica dei dati verso differenti livelli di storage (come nastri Worm).
Thunder Sata Intermix Option è infine la soluzione Hds, dove possono essere utilizzati contemporaneamente dischi Fibre Channel e dischi Sata, che si rivolge allo storage di contenuti non strutturati estendendo a questo tipo di dati le soluzioni Application Optimized Storage, un insieme integrato di hardware, software e servizi per ottimizzare le infrastrutture storage.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Speciale Digital360Awards e CIOsumm.it

Tutti
Update
Round table
Keynote
Video
Digital360Awards e CIOsumm.it, i momenti salienti
Eventi
Digital360 Awards e CIOsumm.IT, ecco i progetti vincitori
Tavola rotonda
Evoluzione del CIO: da centro di costo a motore strategico del business
Tavola rotonda
Business Process Augmentation: dall’RPA alla GenAI… il dato e tratto
Approfondimenti
Sistemi digitali potenziati: l’intelligenza dei chatbot è nelle mani dei CIO
Tavola rotonda
Intelligenza collaborativa e AI: sfide e opportunità per i CIO nell’era dello Human to Machine (H2M) 
Approfondimenti
Open Source: collaborazione e innovazione nel caos apparente del software libero 
Metodologie
BANI: che cos’è e come l’AI può aiutare i CIO a gestire la felicità (e l’infelicità) dei talenti
Prospettive
AI in un mondo complesso. Tra ordine e disordine, le aziende iniziano a capire la giusta via
Approfondimenti
Intelligenza Umana vs Intelligenza Artificiale insieme. Non invece
Eventi
Digital360 Awards e CIOsumm.IT, al via l’evento conclusivo
Video
Digital360Awards e CIOsumm.it, i momenti salienti
Eventi
Digital360 Awards e CIOsumm.IT, ecco i progetti vincitori
Tavola rotonda
Evoluzione del CIO: da centro di costo a motore strategico del business
Tavola rotonda
Business Process Augmentation: dall’RPA alla GenAI… il dato e tratto
Approfondimenti
Sistemi digitali potenziati: l’intelligenza dei chatbot è nelle mani dei CIO
Tavola rotonda
Intelligenza collaborativa e AI: sfide e opportunità per i CIO nell’era dello Human to Machine (H2M) 
Approfondimenti
Open Source: collaborazione e innovazione nel caos apparente del software libero 
Metodologie
BANI: che cos’è e come l’AI può aiutare i CIO a gestire la felicità (e l’infelicità) dei talenti
Prospettive
AI in un mondo complesso. Tra ordine e disordine, le aziende iniziano a capire la giusta via
Approfondimenti
Intelligenza Umana vs Intelligenza Artificiale insieme. Non invece
Eventi
Digital360 Awards e CIOsumm.IT, al via l’evento conclusivo

Articoli correlati

Articolo 1 di 3