Ad aprile 2023, AgID – Agenzia per l’Italia Digitale, attraverso il gruppo di lavoro sui Poli di Conservazione, ha pubblicato un documento titolato “La conservazione delle basi di dati”[1].
Il tema della conservazione dei database è sempre stato marginale, anche se percepito come fondamentale. Negli anni diversi gruppi di lavoro, compreso InterPares nel 2006, hanno prodotto analisi, ipotesi e in alcuni casi anche delle soluzioni tecniche. In Italia è mancata una attenzione specifica sul tema, maturando un forte ritardo sull’argomento. Invece in diversi paesi europei sono state prodotte metodologie e soluzioni tecniche di diverso tipo che hanno consentito di conservare alcune tipologie di base di dati. Ma soprattutto hanno permesso a istituzioni nazionali svedesi, svizzere e norvegesi di essere all’avanguardia guidando il processo di innovazione e produzione del know-how.
Nel mercato esistono anche soluzioni proprietarie, come Chronos[2].
L’Italia è sempre rimasta fedele al concetto di documento come sviluppato dall’archivistica e soprattutto dalla normativa, senza riuscire a introdurre pensiero o idee innovative in materia.
È chiaro che l’aspettativa per uno studio, ancora meglio delle Linee guida ai sensi dell’art.71 del CAD, era alta e attesa.
Il mercato delle base di dati
Prima di entrare nella lettura del documento cerchiamo di definire per sommi capi il mercato delle base di dati.
Prima di tutto dobbiamo ricordare che l’SQL è un linguaggio standard, adottato dall’ANSI nel 1986 e negli anni evolutosi fino ad arrivare alla versione SQL:2016[3]. L’obiettivo che fosse adottato uniformemente dalle case produttrici di DBMS non è stato raggiunto appieno, generando una serie di dialetti proprietari.
Questo fenomeno ha poi generato l’esigenza di migrare i dati tra i vari dialetti, consentendo, per esempio, di migrare da DB2 di IBM a MySQL.
Altro dato da considerare è che oggi i database sono distinguibili in due grandi famiglie: SQL e NoSQL. I secondi sono un approccio diverso alla struttura di dati, abbandonando parte delle specificità del linguaggio SQL o modello relazionale per favorire logiche più agili e aperte per strutturare i dati. Nel mercato, per esempio, l’adozione di un approccio NoSQL ha consentire ad Amazon o Google di offrire servizi innovativi e nel secondo caso di costruire il motore di ricerca più famoso in grande parte delle nazioni del mondo.
Nel 2019 Scalegrid[4] offriva una analisi del mercato indicando come il modello relazionale coprisse solo il 60% del mercato. Il dato si complicava ulteriormente se si pensa che il 44% delle installazioni riguarda una formula multi-database. In pratica si installano più modelli di database per far funzionare un applicativo. La combinazione più diffusa, il 76%, riguardava una combinazione SQL+NoSQL.
Infine va sottolineato come quasi tutti i DBMS presenti sul mercato non sono più definibili in base a un solo modello, per esempio quello relazionale, ma vengono definiti multi-model[5].
Questo piccolo e sintetico quadro ci descrive un mercato molto ricco e integrato, vario e articolato; difficilmente inquadrabile in una semplice dicotomia SQL/NoSQL.
A tutto questo andrebbero aggiunte le nuove necessità dell’innovazione tecnologica, come l’uso dei dati per addestrare le AI oppure la semplice analisi dei dati per non parlare dei Big Data, spesso frutto di combinazioni di dati da fonti diverse.
Approccio metodologico del documento di AgID “La conservazione delle basi di dati”
Il documento di AgID si pone come obiettivo di “sensibilizzare tutti gli attori coinvolti sulle tematiche della conservazione delle informazioni ed il legislatore per aggiornare la vigente normativa sulla conservazione, incentrata principalmente sul documento informatico”.
Subito, già nei primi capitoli, il documento sottolinea l’importanza delle informazioni[6] e focalizza l’attenzione su alcuni aspetti cruciali per la conservazione dei dati.
Si tratta di affermazioni molto rilevanti che possono contribuire a quella definizione di una strategia dei dati che in Italia ancora fa difficoltà a maturare.
Dopo una introduzione che tocca sia i diversi studi sulla conservazione delle base di dati, il modello OAIS, il punto di vista archivistico, quello giuridico, il progetto fondamentale di InterPARES e infine la rappresentazione dei metadati, il documento entra nel vivo identificando il perimetro di analisi, cioè di dati transazionali elaborati dal modello relazionale.
La scelta del gruppo di lavoro è quella di concentrarsi sui sistemi maggiormente usati negli enti pubblici. Una scelta che lascia perplessi, pur apprezzando il tentativo e l’innegabile lavoro, anche tecnico.
Il documento prosegue identificando le classiche soluzioni percorribili in tema di conservazione, e arrivando a definire un obiettivo condivisibile: “conservare i dati e metadati in modo trasparente e indipendente dal sistema originale, così da poterli reintegrare in futuro su di un qualsiasi DBMS”.
Il tentativo di rendere neutri i dati rispetto agli applicativi che li gestiscono, è un ottimo presupposto metodologico e di auspicio per una maggiore attenzione al recupero dello standard SQL.
Il lavoro si completa con una serie di simulazioni usando il software svizzero SIARD per confrontare come lo stesso elabori da diversi DBMS lo stesso database.
Un utile esercizio.
Di particolare rilevanza è il capitolo 1.7 “Razionale per la valutazione della complessità del DB origine per selezionare una soluzione per la conservazione nel tempo e vincoli di cui tenere contro”.
Un lavoro molto pratico per fornire indicazioni utili per produrre una adeguata documentazione a supporto della conservazione e alcune raccomandazioni utili per la conservazione delle base di dati relazionali.
Considerazioni
Si tratta di un lavoro molto interessante, ma molto in ritardo e incompleto rispetto alle esigenze del mercato e degli interessi nazionali.
Ormai AgID, per via di diverse normative, non può che essere l’Autorità nazionale che guida il processo di innovazione nel campo tecnologico. Il processo di innovazione consente di sviluppare una società e una economia del sapere.
Lo studio pubblicato ad aprile 2023, pur avendo apprezzabili riflessioni e si ponga obiettivi di sicuro valore non riesce a recuperare il gap tecnico e cognitivo sul tema.
Limitare la valutazione agli enti pubblici e al modello relazionale rende questo documento più una valida e robusta opera introduttiva e incompleta che un documento che possa anticipare delle linee guida sul tema. Ma c’era bisogno di linee guida e non di uno studio.
I dati sono il carburante del nostro sistema economico e soprattutto dei processi decisionali, anche militari necessari oggi per gestire il conflitto con la Russia e la Cina, e difendere i nostri interessi nazionali.
I dati generano conoscenza se possono essere elaborati e rielaborati nel tempo. Non sono cioè rilevanti per il loro uso fatto in passato, ma quello futuro, quando analisti potranno o dovranno combinare i dati per analizzarli.
Ecco perché richiederebbero la stessa attenzione e impegno che l’Unione Europea attraverso le direttive degli ultimi anni ha profuso.
Alcuni elementi dovrebbero, almeno per chi scrive, nel minor tempo possibile essere accesi:
- I dati devono essere valorizzati, non per il loro significato storico o culturale che comunque permangono, ma come materia prima per future analisi e sviluppi; dobbiamo cioè accettare di perdere qualcosa per guadagnare qualcos’altro;
- Bisogna operare su tutti i modelli di base di dati, SQL e NoSQL; anzi proprio i NoSQL sono quelli strategici e su cui rivolgere lo sforzo maggiore;
- Superare il linguaggio XML, ormai superato, per linguaggi più potenti e capaci di rispondere alle esigenze di programmazione, quantità e qualità della struttura dei dati, ma soprattutto anche per garantire processi di interoperabilità più efficienti;
- Definire una strategia e una tecnologia nazionale, cessando di inseguire soluzioni esogene su cui non avremmo il controllo sullo sviluppo e l’innovazione.
Si tratta, cioè, di avere una strategia di crescita e innovazione che sostenga la competitività nazionale e crei nuove capacità e competenze.
Va aggiunto che AgID con il Piano Triennale per l’Informatica AgID [7]concentra la sua attenzione sui dati e sulla loro importanza strategica; ne consegue che la conservazione dei dati ai fini più vari, da quelli culturali, scientifici fino a quelli strettamente economici è cruciale e bisogna accelerare nel definire un modello nazionale di conservazione di qualsiasi base di dati, in qualsiasi condizione e contesto.
Bibliografia
- https://www.agid.gov.it/it/agenzia/stampa-e-comunicazione/notizie/2023/04/07/conservazione-basi-dati-online-lapprofondimento-agid-sulla-preservazione ↑
- Nel documento di AgID è presente una breve disamina delle più importanti soluzioni presenti nel mercato privato e istituzionale. ↑
- L’ultima versione consultabile: https://www.iso.org/standard/63555.html ↑
- https://scalegrid.io/blog/2019-database-trends-sql-vs-nosql-top-databases-single-vs-multiple-database-use/ ↑
- Si veda l’articolo https://statisticsanddata.org/data/most-popular-databases-2006-2022/ ↑
- Il documento di AgID vuole fornire “un primo quadro sintetico sulla preservazione delle informazioni”. ↑
- https://www.agid.gov.it/it/agenzia/piano-triennale ↑