Infrastruttura AI significa un insieme di strumenti, piattaforme e applicazioni che sfruttare tutto il potere dell’Intelligenza Artificiale per rivoluzionare i processi aziendali e supportare le dinamiche decisionali.
È negli ultimi dieci anni che l’Artificial Intelligence è entrata nella quotidianità delle organizzazioni: le imprese stanno implementando progetti di ogni tipo e dimensione. Di conseguenza crescono gli investimenti in infrastrutture AI anche da parte dei governi e dei finanziatori. Il passaggio dalla ricerca sperimentale a sistemi funzionali e finalizzati a un uso funzionale e cablato nel business sta rapidamente cambiando lo scenario applicativo ma anche gli strumenti di riferimento.
Il valore delle tecnologie open source
Inizialmente la creazione e la gestione di tutti i modelli di apprendimento automatico venivano eseguite localmente su macchine di proprietà, gestite dai data scientist. Di conseguenza, le piattaforme erano polarizzate sul singolo scienziato dei dati o sui suoi team di persone. Il baricentro delle infrastrutture AI è stato l’open source, soprattutto grazie agli ecosistemi Python e R, con librerie caratterizzate da strumenti come scikit-learn, Keras, TensorFlow e PyTorch, notebook Jupyter o Colaboratory di Google.
Infrastrutture AI: evoluzione del ML e Big Data
Tuttavia, l’open source non è un punto d’arrivo finale per lo sviluppo del machine learning. Gli strumenti da soli mancano di requisiti specifici per la gestione di modelli e dati necessari a data scientist e sviluppatori che operano nell’ambito dell’apprendimento automatico. Di conseguenza, nell’ultimo decennio sono emersi nuovi strumenti incentrati sulle necessità più immediate, basati sulla selezione, sull’ottimizzazione e sulla valutazione di ogni algoritmo. È così che, nell’ambito del ML e della data science, Python, R, Java o altri oggetti possono essere applicati in modo diretto per rispondere a qualsiasi specifica domanda con modi e tempi decisamente più agili e scalabili.
Questi strumenti includono quelli dei principali fornitori di piattaforme tra cui Amazon, Microsoft, Google e IBM, nonché di fornitori specializzati di data science e ML tra cui H2O, RapidMiner, DataRobot, Databricks, Anaconda, Dataiku, Domino, KNIME, Alteryx, Ayasdi, SAS e Mathworks.
Poiché la scienza dei dati e lo sviluppo del modello ML sono così dipendenti dai dati e incentrati sui dati, sono scesi nell’agone anche i fornitori di big data come, ad esempio, Cloudera e SAP. Tutti gli strumenti condividono un focus sulla centralità dei dati, con molti di questi strumenti che hanno origini nei big data o nell’analisi dei dati.
Di conseguenza, le caratteristiche principali di questi sistemi sono incentrate su un binomio costituito da algoritmo & modello più che su un concetto di operatività & consumo. Come fanno notare gli esperti, progressivamente si sta assistendo a un’evoluzione dello sviluppo incentrata su un concetto di operatività del modello con strumenti di ML sempre più all’avanguardia.
AutoML: la nuova frontiera dell’autonomous development
Il più grande cambiamento nell’ambito dello sviluppo dell’apprendimento automatico è stato l’emergere degli strumenti di autoML. Data la mancanza di abilità e competenze nella scienza dei dati, molti strumenti di sviluppo e di modellistica ML hanno rilasciato funzionalità di gestione in automatico della programmazione. Data scientist e sviluppatori ML, una volta ripuliti ed elaborati i loro dati, una volta operata la selezione tra un’ampia gamma di algoritmi disponibili, possono configurare e gestire la formazione dei modelli, provvedendo alla loro ottimizzazione effettuata tramite una selezione degli iperparametri più adeguati. Il tutto gestendo la valutazione del modello e la sua messa in opera.
Grazie agli strumenti di AutoML le organizzazioni possono contare su di una capacità molto maggiore di trascinare e rilasciare i propri set di dati utilizzando uno strumento che semplifica notevolmente la programmazione dei modelli. I fornitori di AutoML includono soluzioni open source come Auto-sklearn, Auto-WEKA, OptiML AutoML e TPOT, nonché offerte commerciali di aziende come Cloudera, DataRobot, Google, H2O.ai, RapidMiner e altri.
ML in cloud (MLaaS) e le opportunità del Modello as a Service
Gli algoritmi di machine learning per funzionare al meglio, necessitano di essere alimentati continuamente di dati. Per questo motivo i grandi fornitori di cloud sono stati tra i maggiori sponsor dell’apprendimento automatico. Colossi come Amazon, Google, Microsoft, IBM, Oracle o SAP stanno costruendo portafogli sostanziali per lo sviluppo e la gestione dei sistemi di ML.
Conosciute come Machine Learning as a Service (MLaaS), offerte cloudML, le offerte basate sulla nuvola costituiscono l’infrastruttura AI ideale per terziarizzare la complessità e avere massini benefici tecnologici. Grazie al MLaaS è possibile fruire dell’intera gamma di strumenti di sviluppo, gestione e operatività necessari per far funzionare l’apprendimento automatico e l’AI. Ecco qualche esempio:
- Amazon Web Services (AWS) viene offerta principalmente tramite AWS SageMaker, ma include anche una serie di funzionalità AI e ML di livello superiore per visione artificiale, elaborazione del linguaggio naturale, analisi predittiva e via dicendo.
- IBM Watson (link interno:) è stato uno dei primi sistemi di riferimento ad essere commercialmente disponibile per aiutare gli sviluppatori a sperimentare l’apprendimento automatico e calare l’AI in contesti aziendali reali.
- Google Cloud ML Engine è la piattaforma ospitata dall’azienda di Mountain View che consente agli sviluppatori e ai data scientist di eseguire e realizzare modelli e set di dati di machine learning.
- Microsoft Azure ML fornisce una vasta gamma di strumenti e soluzioni per data scientist, sviluppatori e amministratori che desiderano mettere in produzione ML
Separato dal mercato MLaaS c’è il concetto di modello come servizio. Invece di fornire l’ambiente per costruire, eseguire e gestire i propri modelli, il Modello as a Service consente di accedere a modelli predefiniti e formati specifici per le singole attività. Tra i fornitori gli esperti citano Clarifai, Gumgum, Modeldepot, Imagga e SightHound.
I programmatori possono eseguire una query su questo tipo di modelli capaci di fornire risultati in base alle specifiche. Ad esempio, alcuni modelli potrebbero identificare elementi specifici nelle immagini, mentre altri potrebbero aiutare la classificazione del testo o a elaborare il linguaggio naturale. Esiste anche una classe emergente di aziende che sta lavorando alla raccolta di una serie ampiamente curata di modelli applicabili a domini diversi.
Operazioni ML e necessità di gestire l’utilizzo del modello
In realtà, la sfida tecnologica non è tanto nella produzione di modelli, ma nelle loro modalità di utilizzo e di consumo. La necessità di gestire l’operatività dei modelli di apprendimento automatico o operazioni ML sta diventando sempre più urgente man mano che il numero di modelli in produzione crescere in modo esponenziale. Il mercato è in grande fermento: non solo aziende continuano a produrre e consumare i propri modelli ML, ma fanno sempre più ricorso a modelli di fornitori e di terze parti.
L’uso dei modelli in produzione solleva molte preoccupazioni, soprattutto in merito all’affidabilità dei risultati, alla loro sicurezza intrinseca e ai paradigmi di gestione di un ambiente di continuo cambiamento. Dal punto di vista della maturità delle infrastrutture AI, una serie emergente di strumenti operativi ML offre funzionalità per la governance dei modelli di apprendimento automatico come, ad esempio:
- il controllo delle versioni
- la sicurezza
- la scoperta dei modelli e la loro trasparenza
- il monitoraggio
- la gestione dei modelli
Questi strumenti, come ad esempio ParallelM, assicurano che solo gli utenti qualificati possano utilizzare determinati modelli, garantendo sia che le nuove versioni dei modelli non causino risultati imprevedibili, sia che ci sia un’adeguata protezione dei modelli dall’avvelenamento dei dati e dagli attacchi alla sicurezza informatica. È così che questi strumenti assicurano che i modelli continuino a fornire risultati ai livelli richiesti di accuratezza e precisione.
Le competenze fondamentali nel ML
Dal punto di vista di un’infrastruttura AI se è vero che una gamma sempre più diversificata di utenti è in grado di sviluppare e utilizzare modelli, è anche vero che gli sviluppatori e gli utenti di ML devono disporre di un notevole set di competenze per utilizzare efficacemente questi sistemi. Ai livelli più fondamentali, le organizzazioni hanno ancora bisogno di data scientist con conoscenze matematiche e una solida conoscenza degli algoritmi per costruire i propri modelli. Al fine di non solo ottenere risultati efficaci, ma analizzare e comprendere i risultati forniti, è fondamentale che uno scienziato di dati abbia competenze di probabilità statistica, che è parte integrante del corpus di discipline che fanno capo all’apprendimento automatico.