Big data e machine learning possono essere dei potenti alleati in ambito medico. Ne è un esempio il caso dell’emergenza del virus Covid-19, cosiddetto “coronavirus”. I numeri relativi ai casi di contagio sono spesso molto incerti e da più parti viene messa in dubbio la reale pericolosità del virus, dividendo gli esperti del mondo medico scientifico. Un contributo determinante a supporto degli esperti epidemiologi potrebbe arrivare dalle tecniche di analisi dati. Risulta infatti essere sempre più diffuso, in ambito medico, l’utilizzo di modelli predittivi nelle diverse branche della medicina. Ibm ha addirittura messo a disposizione della comunità di ricerca e prevenzione oncologica la sua suite di machine learning Watson.
Brevi cenni su Big data e machine learning
Negli ultimi quindici anni nel mondo informatico si è diffuso, diventando quasi una “buzzword”, il termine Big data. Cosa significa esattamente? Per comprenderne il senso occorre innanzitutto capire cosa rappresenti, in ambito informatico, il dato. Il dato può essere definito come una qualsiasi informazione sulla quale è possibile eseguire delle operazioni computazionali e che può essere memorizzato e trasmesso attraverso segnali elettronici. Il termine Big data quindi è usato per descrivere un insieme di dati di una grandezza ampia e che hanno un tasso di crescita esponenziale nel tempo.
L’ingente quantità di dati di cui oggi disponiamo e che, quotidianamente, possono essere raccolti nei più svariati ambiti, può contribuire a una migliore comprensione della realtà utilizzando algoritmi e approcci che si concentrano sulla definizione di modelli e predizioni piuttosto che sulla produzione di risultati computazionali. Tali algoritmi vanno sotto il nome di machine learning, ovvero una tecnica di data-analytics che “insegna” ai computer ad apprendere sulla base dell’esperienza. Attraverso metodi computazionali gli algoritmi di machine learning apprendono informazioni direttamente dai dati senza basarsi su un modello predefinito. Possiamo quindi dire che, mentre gli algoritmi tradizionali sulla base di un modello e dei dati in input, producono un risultato, gli algoritmi di machine learning sulla base dei dati in input apprendono pattern di comportamento, producendo il modello che li descrive. L’esperienza costruita e il livello di perfomance crescono all’aumentare dei dati osservabili sui quali l’algoritmo può fare training. Si comprende come le tecniche di machine learning si basino proprio sui Big data.
Gli algoritmi machine learning vengono fondamentalmente distinti in due categorie:
- algoritmi supervisionati: il modello viene costruito sulla base di una prova in presenza di incertezza. In input all’algoritmo sono forniti dati con relativi risultati noti e viene addestrato per generare un modello predittivo per dare risposte corrette a nuovi dati in input. Ad esempio possono essere dati in input all’algoritmo un insieme di dati clinici di pazienti con relativa diagnosi. A valle del training il modello generato è in grado di produrre la diagnosi corretta per i nuovi pazienti, con un certo grado di accuratezza.
- algoritmi non-supervisionati: in questo caso gli algoritmi si concentrano sulla ricerca di pattern nascosti o strutture intrinseche presenti nei dati. In pratica si cerca di costruire delle inferenze a partire da dati in input che non hanno risposte corrette corrispondenti. Ad esempio un approccio del genere potrebbe essere utilizzato da una compagnia telefonica che volesse ottimizzare il posizionamento delle celle di copertura. Attraverso un algoritmo di machine learning, la compagnia potrebbe stimare il numero di raggruppamenti di persone (clusters) che si appoggiano su una determinata cella. Dato che un dispositivo mobile può agganciare una sola cella per volta, in tal modo la compagnia potrebbe razionalizzarne il numero.
Big data e ML in Healthcare Epidemiology
La possibilità di elaborare in modo efficiente ingenti quantità di dati e, da essi, estrarre nuova conoscenza si è, naturalmente posta all’attenzione anche del settore medico e della salute pubblica in generale. Basti pensare che, attualmente, sono disponibili, online, intere banche dati cliniche, disponibili sia a pagamento che gratuitamente. Un esempio su tutti può essere quello della World Health Organisation (WHO) che sul suo sito ufficiale offre una pagina dedicata ai datasets disponibili offrendo anche strumenti e tecniche avanzate (e.g. API e Query) per la loro interrogazione.
Un interesse particolare su questa tematica si riscontra, già da diversi anni, nel settore medico dell’epidemiologia. L’epidemiologia viene definita come la scienza “che studia la frequenza con cui si manifestano le malattie e le condizioni che favoriscono o ostacolano il loro sviluppo. Essa costituisce la base per una razionale profilassi delle malattie”.
Per la tipologia di fenomeni studiati e per i metodi utilizzati, fondamentalmente basati sulla stretta correlazione tra conoscenze mediche, statistiche e socio geografiche, l’epidemiologia trae naturalmente vantaggio dall’utilizzo dei Big data e dalle tecniche di machine learning.
In caso di epidemia, infatti, è necessario studiare e analizzare dati clinici che possono essere altamente variabili in termini di qualità e consistenza informativa. Tali informazioni, nel momento in cui si attivano protocolli di sicurezza e azioni di profilassi, possono crescere a una velocità esponenziale, considerando anche i casi di pazienti falsi positivi. A ben vedere ci si ritrova perfettamente nel tipico scenario di utilizzo dei Big data.
Sulla base dei dati a disposizione l’epidemiologo è chiamato, attraverso l’applicazione di metodi analitici, clinici e sperimentali, a fornire le seguenti risposte:
- comprendere l’origine di una malattia la cui causa può essere sconosciuta
- acquisire informazioni sull’ecologia e sulla storia naturale della malattia
- cercare di definire un modello per la predizione della diffusione epidemiologica in termini di velocità e di localizzazione
- programmare e attivare piani di controllo e di monitoraggio della malattia
- valutare gli effetti economici di una malattia ed analizzare i costi e benefici
Infatti, se consideriamo le applicazioni di machine learning nel campo delle malattie infettive, possiamo osservare che esse sono diverse e comprendono la stratificazione del rischio per le infezioni, identificando il contributo relativo di specifici fattori di rischio al rischio complessivo, comprendendo quelle che vengono tecnicamente definite come, interazioni patogeno-ospite che aiutano nella predizione della comparsa della sindrome in oggetto.
Un grande contributo è quello dato dalla sempre maggiore diffusione della “cartella clinica elettronica” (EHR) contenente informazioni su farmaci, procedure, ubicazioni, personale sanitario, risultati di laboratorio, segni vitali, dati demografici, anamnesi del paziente e dettagli sul ricovero.
Sulla base di questi dati è quindi possibile applicare tecniche di machine learning che hanno dato risultati incoraggianti. Ad esempio, nei casi di infezione da CDI “Clostridium difficile Infection” gli algoritmi di machine learning imparano a mappare i dati dell’EHR su un valore che stima la probabilità di CDI del paziente. Sebbene più complessi degli strumenti a bassa dimensione per il calcolo del rischio per i pazienti, i modelli che sfruttano la ricchezza dell’EHR possono essere significativamente più accurati. Tali modelli, basati su migliaia di variabili, sono stati estesi e cambiati cercando di comprendere come i fattori di rischio cambiano nel tempo. Questi modelli potrebbero essere addirittura incorporati in un sistema centralizzato EHR, generando stime di rischio giornaliere per ciascun paziente.
Un contributo determinante può essere dato, dagli algoritmi di ML, anche per quanto riguarda le malattie zoonotiche, ovvero quelle malattie che si trasmettono dagli animali all’uomo (e.g. Toxoplasmosi). In questo caso i ricercatori applicano gli algoritmi di ML a un set di dati che contengono informazioni su specie di roditori che trasportano agenti patogeni zoonotici. Utilizzando quasi 100 variabili predittive (come ad esempio durata della vita, habitat naturale) è stato possibile identificare il rischio di trasmissione con alta accuratezza e le aree geografiche con maggiori probabilità di trasmissione di determinate patologie zoonotiche.
Infine applicazioni di machine learning sono state utilizzate anche nella predizione dell’infezione del virus Ebola durante l’epidemia avvenuta nell’Africa Occidentale tra il 2013 e il 2016.
Big Data e Machine Learning per combattere il coronavirus
Il coronavirus (COVD-19) proviene da una famiglia di virus associata alla sindrome respiratoria acuta grave (SARS) e al raffreddore comune. I ricercatori affermano che il coronavirus proviene da animali e si diffonde nell’uomo, dopo di che le persone si infettano a vicenda. Animali come pipistrelli e serpenti sono portatori di virus che sono mortali per la salute umana. Inoltre gli stessi ricercatori sostengono che anche altri animali contengono diversi ceppi virali ma che non si sono ancora diffusi nell’uomo.
I Big data e l’analisi predittiva costituiscono, anche in questo caso, un potente strumento per combattere i decessi provocati da questa sindrome e cercare di arginare un’epidemia, o addirittura una pandemia.
BlueDot è una delle prime start up che ha sviluppato dei sistemi intelligenti, a supporto degli enti governativi e sanitari, per il monitoraggio automatico della diffusione delle malattie infettive e la loro predizione. Durante la diffusione della SARS, la piattaforma BlueDot aveva già fornito dei riscontri sulla gravità della situazione che, qualche mese dopo si sono rivelati veri. Nel dicembre del 2019, sempre BlueDot aveva lanciato un allarme sulla gravità della sindrome da coronavirus, puntualmente rivelatosi corretto, in tutta la sua virulenza, nelle ultime settimane. Tra gli strumenti utilizzati da BlueDot ci sono anche tecniche che vanno sotto il nome di NLP (Natural Language Processing) che elaborano i linguaggi e i modi di esprimersi delle persone.
Anche nell’ottica di trovare delle contromisure alla sindrome da coronavirus, le tecniche di analisi predittiva giocano un ruolo fondamentale. È il caso di Insilico Medicine, un’altra start up focalizzata sulla prevenzione delle malattie. Essa sta attualmente sviluppando una tecnologia che informerà i medici sulle molecole in grado di combattere il coronavirus. Il sistema di intelligenza artificiale di Insilico Medicine è rapido e preciso dopo aver recentemente analizzato molecole e fornito feedback su quelle adatte a contrastare il coronavirus. La start-up sta attualmente sviluppando un database di informazioni molecolari che i ricercatori medici possono utilizzare nei loro progetti di sviluppo di vaccini.
Un fattore determinante per la corretta ed efficace applicazione di modelli predittivi nello scenario del coronavirus può essere quello della stretta integrazione tra i dati dei social-media e le informazioni geografiche fornite dai cosiddetti sistemi GIS (Geographic Information System). Le università di Harvard e Southampton stanno analizzando, attraverso algoritmi di NLP, dati geolocalizzati, provenienti dai social per comprendere l’attuale localizzazione del virus. Ad esempio sulla base di post o twitter del tipo “Ho l’influenza”, “Ho mal di testa”, “Che tosse stamattina”, è possibile distinguere tra potenziali soggetti affetti dal virus da coloro che non ne sono colpiti. Inoltre attraverso tecniche di questo tipo si è cercato di tracciare, attraverso i contenuti social, gli spostamenti dei soggetti residenti a Wuhan (sede del focolaio del virus) lungo il globo. Attraverso studi approfonditi è possibile rilevare dei pattern di diffusione, geolocalizzati, che potrebbero condurre ad una potenziale soluzione del problema in termini di profilassi e azioni preventive.
In conclusione, gli strumenti di analisi predittiva, Big data e machine learning stanno svolgendo un ruolo determinante nel fronteggiare l’emergenza del coronavirus consentendo da un lato di fornire e condividere nuova conoscenza ai ricercatori ma anche fornire informazioni alle organizzazioni governative sulle probabilità di rischio e diffusione su tutto il pianeta.