Con un ritmo di circa un petabyte al giorno, un’eccellenza mondiale della ricerca come il CERN produce dati. Dati preziosi, adesso ma anche in futuro, dati da conservare in modo pratico, agile e sicuro. Custodiscono la speranza di nuove scoperte che potrebbero cambiare il destino dell’umanità.
Questa consapevolezza, più o meno forte nel mondo IT, ha fatto nascere l’urgenza di far evolvere il monitoraggio dell’infrastruttura informatica che elabora queste informazioni, soprattutto ora che le attività del centro di ricerca si sono intensificate, con l’avvio di Run 3.
Pronti per i nuovi “fasci di dati” in arrivo
Le attività principali del CERN girano attorno, e all’interno, al Large Hadron Collider (LHC). Fasci di particelle subatomiche accelerano lungo un circuito di 27 km, a 100 metri di profondità, per scontrarsi e svelarci i misteri della materia.
Anche di quella oscura, o per lo meno ci si prova, attraverso uno degli otto esperimenti ospitati, il CMS, ripartito lo scorso luglio dopo una “pausa di aggiornamento” dal 2018 al 2022. Per un periodo di tre anni sarà attivo e “altamente produttivo”: fornirà infatti numerosi dati a un ritmo molto più elevato che in precedenza.
Un gran lavoro aspetta quindi ora gli scienziati, mentre il team IT ha dovuto occuparsene giocando anche d’anticipo. Per prepararsi, infatti, gli scorsi mesi ha aggiornato quattro grandi esperimenti di LHC inserendo nei loro sistemi di lettura e selezione dei dati nuovi rivelatori e infrastrutture di calcolo. Una mossa preventiva per consentire ora ai ricercatori di raccogliere campioni di dati significativamente più grandi e di qualità superiore rispetto ai cicli precedenti. Per comprendere l’efficacia della scelta, si stanno attualmente monitorando le prestazioni di calcolo aggregando 30 terabyte in un periodo di 30 giorni
La soluzione open source dagli USA
Quello che potrebbe passare per un semplice aggiornamento delle infrastrutture, è invece l’esempio di come i dati e la loro gestione e conservazione siano una questione di pubblico e generale interesse. E che richiede investimenti di risorse economiche e umane, ma anche lungimiranza e pensiero strategico.
La scalatura sempre maggiore dello storage e dei dati innescata da Run 3 ha spinto il team IT a evolvere e innovare. Il primo pensiero è stato quello di assicurarsi di essere in grado di soddisfare tutta la domanda e di rispondere alle esigenze degli utenti, oltre che gestire lo storage.
A fronte di un sistema di back-end che monitora l’infrastruttura non abbastanza performante, basato sul database delle serie temporali InfluxDB e sul database di monitoraggio Prometheus, è stato necessario cercare soluzioni alternative.
Run 3 per il CERN, come altri fenomeni potrebbero fare in una qualsiasi azienda, ha prodotto un picco di produzione dati che ha svelato problemi di scalabilità e affidabilità nel sistema al momento adottato. Aumentando i dettagli raccolti, ha infatti iniziato a mostrarsi sempre meno affidabile ma, soprattutto, a segnare un crollo delle prestazioni, in termini di risorse di macchine virtuali e di servizi utilizzati.
La soluzione è arrivata dal mondo open source, con un sistema costruito attorno a un database di serie temporali ad ampia colonna da una startup di San Francisco: VictoriaMetrics. Il suo sistema, uno storage di front-end sostitutivo di InfluxDB e Prometheus, ha contribuito a eliminare anche i seri problemi di cardinalità che stavano emergendo. Mala gestione a livello di valori ripetuti e di dati ad alta rotazione (churn), in cui le applicazioni possono essere distribuite più volte su nuove istanze.
Innovazione IT salvifica e riuscita, al CERN: Run 3 potrà continuare a “correre” per i prossimi due anni di attività previsti. Per il momento, infatti, non sono emersi alcuni limiti in termini di scalabilità: via libera alla ricerca, grazie servizi OpenStack eseguiti su cluster Kubernetes di macchine x86 in modalità affidabile e di alta disponibilità, e all’interno dello stesso data center del CERN.