AIOps: l’evoluzione dell’AI nell’IT Operations management

Le piattaforme AIOps sono l’esempio più recente di come le tecnologie di intelligenza artificiale siano sempre più in grado di interagire con i servizi e la gestione delle infrastrutture IT (ITOM). La sfida è gestire la complessità dei dati con l’obiettivo di raggiungere autonomia di analisi e azioni automatizzate.

Perché parlare di AIOps? Alla crescente richiesta di migliorare l’operatività dell’IT, l’intelligenza artificiale negli anni ha risposto mettendo in campo molte soluzioni concrete ed efficaci come chatbot, gli assistenti virtuali, per migliorare la gestione dei service desk; algoritmi di dati di serie temporali applicati alle metriche delle prestazioni per prevedere comportamenti futuri o gli algoritmi di clustering e di rilevamento anomalie.

La rapida crescita di volumi di dati, l’aumento dei dispositivi connessi e la necessità di far confluire tutti questi dati hanno generato nuove opportunità e obiettivi per l’IT Operations management. Oggi possiamo parlare di un “nuovo” ITOM che guarda a sistemi di automazione intelligenti in grado di raggiungere un livello di sviluppo tecnologico basato sull’intuizione e l’azione automatizzata.

Indice degli argomenti

AI e IT Operations Management: l’AIOps

Sulla base della definizione data da Gartner, le piattaforme AIOps Algorithmic IT Operations, sono sistemi che combinano la raccolta dati e le fasi successive di memorizzazione, analisi e visualizzazione. Queste piattaforme sono in grado di dialogare oltre che con i normali strumenti IT con qualunque tipo di applicazione attraverso API. Lo scopo è acquisire set di dati da qualsiasi ambiente indipendentemente dal formato nativo ed effettuare un’analisi completa. L’automazione di questi sistemi permette di eliminare errori e ottenere informazioni e di conseguenza, decisioni convalidate dai dati.

Ad oggi, i casi d’uso più frequenti per l’impiego di soluzioni AIOps sono la riduzione della quantità di eventi e dei falsi allarmi; la rilevazione di valori anomali nell’analisi di dati di serie temporali e nell’analisi per individuare la causa. Il monitoraggio e la rapidità di analisi, grazie all’intelligenza artificiale, ai dati e ai parametri, permette di prevenire un problema prima ancora che l’anomalia vada a segno.

Il principale motivo che spinge ad investire sulla tecnologia AIOps è la capacità di ridurre il tempo medio della risoluzione dei problemi e come conseguenza, la riduzione dei costi. I vantaggi che ne seguono sono rappresentati dalla risoluzione dei volumi di eventi e dei falsi allarmi ma non ultimo, la riduzione del carico di lavoro per il personale IT.

La maggior parte delle piattaforme AIOps è predisposta per riunire flussi di dati di qualsiasi origine e mira a soddisfare esigenze generiche e di ampio respiro. Alcune piattaforme, al contrario, sono incentrate su domini spesso singoli e applicate per esigenze ristrette o limitate. In questo contesto, si collocano anche i progetti open source che permettono di assemblare in modo ibrido le piattaforme AIOps anche se necessitano di competenze molto specifiche sia per il supporto che per il mantenimento.

Livelli funzionali di una piattaforma AIOps

L’architettura di una piattaforma AIOps è composta da funzioni o livelli funzionali principali come:

La raccolta di dati da più fonti come infrastruttura, app, reti, database e cloud.
La raccolta e l’analisi correlata di dati di streaming e di dati storici. L’analisi in tempo reale avviene senza che questi vengano prima salvati in un database.
L’indicizzazione, l’archiviazione e non ultimo, l’accesso ai dati.
Le fasi di analisi di apprendimento automatico: dall’analisi statistica e probabilistica, le rilevazioni automatizzate di modelli dati dalla correlazione tra dati storici ed in streaming; le rilevazioni di anomalie, l’analisi topologica sui dati grafici fino ad arrivare all’analisi prescrittiva per suggerire soluzioni alla risoluzione di un problema.
Il risultato dell’analisi. Quest’ultimo passaggio è molto importante perché ha lo scopo di creare dei modelli composti da cluster di dati da utilizzare per individuare le cause alla radice dei problemi di sistema esistenti, suggerire una serie di soluzioni possibili e ottenere attività automatizzate che in alcuni casi possono essere pianificate.

Nella figura sono descritte le fasi e i passaggi fondamentali dell’automazione di tipo prescrittivo. *Fonte: Gartner*

I vantaggi di AIOps

Come abbiamo scritto, il principale vantaggio di un approccio AIops è quello di rendere più rapide, per le operazioni IT, l’identificazione e la risoluzione di problematiche relative a rallentamenti o interruzioni dei sistemi. Da questo vantaggio principale ne conseguono alcuni più specifici.

Maggiore rapidità del MTTR (mean time to resolution): correlando i dati delle operazioni nei diversi ambienti IT e riducendo il “rumore” delle operazioni (grazie alla risoluzione automatica di buona parte delle problematiche) AIops riesce a identificare le cause principali di una interruzione o un rallentamento e a proporre soluzioni in modo molto più rapido di quanto non si possa fare utilizzando altri strumenti. Questo permette alle organizzazioni di fissare e raggiungere obiettivi di MTTR precedentemente impensabili. Ad esempio, il fornitore di telecomunicazioni Nextel Brazil è stato in grado di utilizzare AIOps per ridurre i tempi di risposta agli incidenti da 30 minuti a meno di 5 minuti.

Dalla gestione proattiva alla gestione predittiva: grazie alla sua intrinseca caratteristica di apprendimento continuo. AIops migliora costantemente la propria capacità di identificare gli avvisi o i segnali meno urgenti che si correlano a situazioni più urgenti. Questo significa che può fornire avvisi predittivi che consentono ai team IT di occuparsi di potenziali problemi prima che causino rallentamenti o interruzioni.

Modernizzazione delle operations IT e del team dedicato: liberati dalla necessità di verificare le decine di alert che arrivano dai vari ambienti, i team delle operations IT ricevono solo gli avvisi che soddisfano specifici parametri o specifiche soglie di livello di servizio, completi di tutto il contesto necessario per effettuare la migliore diagnosi possibile e intraprendere la migliore e più rapida azione correttiva. Più AIOps impara e automatizza, più aiuta a mantenere operativo il sistema con meno sforzo umano e più il team delle operazioni IT può concentrarsi su compiti con un maggiore valore strategico per l’attività di business.

Evoluzione e futuro delle piattaforme

L’evoluzione della tecnologia è strettamente legata ad un sistema di azioni automatizzate di tipo prescrittivo. Le soluzioni di machine learning permettono di elaborare scenari predittivi sia a livello strategico che di manutenzione predittiva. Il passaggio futuro è ottenere modelli d’uso e soluzioni di tipo prescrittivo in grado di influenzare scelte strategiche in modo intelligente. Ma, ad oggi, sono ancora poche le soluzioni prescrittive esistenti. Il motivo principale è dovuto alla scarsa fiducia dei leader di I&O nei confronti di azioni completamente automatizzate.

L’architettura migliora, ma la tecnologia sta ancora emergendo e richiede tempo e sforzi per ottenere risultati di qualità. Le azioni automatizzate con strumenti prescrittivi che maggiormente evolveranno restano quelle a basso rischio. Le azioni che in caso di effetti collaterali o se risultano fallimentari possono solamente compiere danni minori o minimi. Un esempio potrebbe essere l’avvio di una macchina virtuale per l’ottimizzazione del carico di lavoro. I principali limiti ad una maggiore evoluzione dei sistemi AIOps sono rappresentati senza dubbio dalla mancanza di competenze scientifiche in ambito I&O e dalla qualità del dato.

Un limite, invece, all’evoluzione di casi d’uso più complessi è legato alla necessità di competenze complesse da parte dei fornitori.

AIOps integrato nel DevOps

Le organizzazioni IT hanno anche iniziato a esplorare AIOps in un contesto DevOps integrato con l’automazione delle versioni delle applicazioni per valutare il rischio nel codice e anche nelle build per evitare distribuzioni pericolose. Ciò richiede l’ingestione di metadati, inclusi i tag della gestione delle versioni per facilitare la categorizzazione e la relazione delle nuove funzioni rilasciate. Stanno anche utilizzando AIOps per rilevare potenziali problemi di sicurezza.

Il Natural Language Processing è ampiamente adottato negli strumenti ITSM, ma alcuni fornitori di APM hanno iniziato a includere il NLP come parte delle loro capacità AIOps. L’obiettivo è consentire una ChatOps più flessibile per i team DevOps e offrire una migliore interfaccia ai dati e all’automazione APM.