Una audience enorme sui propri servizi digitali (dai siti web alle App) pari ad esempio a 43 milioni di browser unici al mese su Corriere.it, di cui la maggior parte però naviga senza effettuare alcuna registrazione, quindi per l’azienda risultano anonimi e non tracciabili. È da qui che parte il viaggio di RCS verso gli Advanced Big Data Analytics, progetto che è valso all’azienda anche il prestigioso premio di innovazione del Politecnico di Milano. Lo raccontano a ZeroUno Gianbattista Angelini, Head of Digital and Data Technology e Rubens Ballabio, Big Data Architect.
“Negli ultimi anni sul mercato si sono affacciati player che, pur non essendo publisher e quindi non in diretta concorrenza con un gruppo come il nostro, hanno influenzato moltissimo le modalità di accesso e fruizione dei contenuti, pensiamo a Google, Facebook o Apple. Inoltre sui servizi digitali noi proponiamo abbonamenti a costi relativamente bassi con la possibilità comunque di accedere e navigare a moltissimi servizi inclusi, per cui la ‘volatilità’ degli utenti è molto elevata”. Descrive così Angelini lo scenario di riferimento entro il quale si muove oggi uno dei gruppi editoriali più importanti del panorama italiano, ribaltando però immediatamente il quadro con una visione più rosea: “Guardando a questi nuovi ‘competitor’ abbiamo intuito che l’azienda avrebbe potuto migliorare i ricavi mediante una sorta di ‘data monetization’ intesa al nostro interno non come vendita dei dati dei nostri utenti, ma vendita di servizi più efficaci costruiti sui dati di navigazione e comportamento degli utenti che navigano sui nostri siti e le nostre applicazioni”.
Who's Who
Gianbattista Angelini
Dal datawarehouse al data lake per gli Advanced Analytics
A parole risulta molto semplice, ma per arrivare a un risultato simile ci è voluto tempo ed investimenti sia economici sia di tempo e competenze. “Siamo partiti da lontano con una strategia ben precisa focalizzata sui dati e con uno sviluppo progressivo lungo un arco temporale di tre anni”, descrive Angelini. “Nel 2014 abbiamo lavorato intensamente sul fronte della Data Governance sviluppando l’infrastruttura ‘portante’ e lavorando all’architettura di Master Data Management – MDM (che poggia su un datawarehouse). Il primo anno, di fatto, abbiamo messo ordine sui dati e sui database transazionali lavorando in un’ottica di data quality e real time. Il secondo anno siamo passati all’implementazione di una Data Management Platform (la scelta è ricaduta su Krux, una soluzione PaaS oggi parte del portfolio di Salesforce) con l’obiettivo di collezionare ed analizzare anche i dati degli utenti anonimi (quelli che navigano sul web senza registrarsi). Dopo aver sistemato i dati offline con l’MDM e quelli online con la piattaforma SaaS, nel 2016 abbiamo lavorato alla realizzazione del data lake con il chiaro obiettivo di predisporre un repository di dati efficace attraverso il quale sviluppare progetti di predictive analytics”.
Attorno al data lake (anche questo sviluppato totalmente in cloud), spiega Ballabio, “si è sviluppato il progetto più esteso di Advanced Big Data Analytics mediante un mix di tecnologie molto complesse (tra le quali Krux che ha già di per sé alcune funzionalità analitiche) che, in linea di massima, si basano su:
- Data ingestion: collezione di tutti i dati che arrivano dall’area digitale come navigazioni web, interazioni con le App del gruppo, dati provenienti dai social network;
- Machine learning ed analytics: incrocio di tutti i dati dell’area digitale con quelli della base clienti RCS (gli algoritmi di analisi, modellati attraverso un motore di machine learning sul quale i data scientist inseriscono i propri calcoli matematici, tentano di ricondurre le informazioni delle transazioni dei clienti reali con i dati della navigazione degli utenti sui siti web) e definizione dei cosiddetti ‘segmenti’, ossia dei gruppi di profilazione degli utenti/clienti (operazione svolta sempre dagli algoritmi di machine learning). Nel rispetto dei regolamenti sulla Privacy e dei relativi consensi, è poi possibile sviluppare campagne ad hoc, per esempio da veicolare attraverso Dem, mentre nel caso di utenti anonimi (che navigano sui siti e le App del gruppo) l’azienda crea campagne per il web secondo la logica del ‘programmatic advertising’ (ossia proponendo campagne di comunicazione da posizionare strategicamente sulle pagine web in base al target identificando mediante la profilazione e l’analisi delle abitudini e del comportamento dei navigatori)”.
Una profilazione dei clienti sempre più profonda
In RCS è stato fin da subito chiara la necessità di lavorare creando un team multidisciplinare dove IT e business potessero esprimere al meglio esigenze, criticità ed opportunità con l’unico obiettivo di trovare la ‘formula migliore’ per avviare e procedere con il progetto. “Si è creato una sorta di triumvirato tra IT, Marketing e Vendite – racconta Angelini – che ci ha permesso, mediante un unico progetto tecnologico, di coprire più esigenze di business: si è lavorato (e si sta lavorando tutt’ora) a diversi use case, tutti gestiti mediante la medesima tecnologia”.
Il primo degli use case sui quali il team ha concentrato gli sforzi riguarda il progetto di ‘programmatic advertising’ al quale abbiamo già accennato. “Sui siti RCS (lo ricordiamo, contano milioni di browser unici al mese), riusciamo ora a vendere spazi pubblicitari profilati; non vendiamo più solo ad impression ma posizioniamo una campagna pubblicitaria in modo da raggiungere un numero predefinito clienti classificati come interessati allo specifico argomento, un totale cambio di prospettiva”, spiega Angelini. Questo si riesce a fare grazie a una conoscenza più approfondita della base clienti, degli interessi degli utenti e del loro comportamento sui nostri siti (posizionamento delle campagne dove si sa che avranno più successo perché gli utenti hanno mostrato già un interesse verso quell’azienda o quel prodotto o quel tipo di servizio/soluzione). Anziché occupare a puro titolo di esempio 100 pageview del Corriere ne occupiamo la metà e con risultati migliori, così le restanti possono essere utilizzate per altre campagne. È un win-win perché l’investitore ottiene migliori risultati e noi ottimizziamo le risorse riuscendo a servire meglio e più clienti”.
Il valore più importante che Angelini e Ballabio vedono in questo progetto è la flessibilità: “Con lo stesso data lake riusciamo a coprire differenti scenari ed esigenze – dicono -, fino all’antichurn (ossia analisi avanzate per l’individuazione delle variabili cosiddette ‘spia’ in grado di prevedere/prevenire comportamenti a rischio, come può esserlo per esempio l’abbandono di un cliente, per avviare le opportune azioni ‘correttive’). È sufficiente modificare gli algoritmi di analisi per sviluppare progetti nuovi, in altri ambiti; la base dati e le tecnologie rimangono sempre le stesse”.
Tra i servizi ‘in lavorazione’ ci sono ora quelli di ‘Content Recommendation’: “Non abbiamo ancora avviato un progetto in questa direzione, ma l’idea di fondo è modellare nuovi algoritmi che consentano agli utenti di accedere ai contenuti di loro interesse senza doverseli cercare sui siti proponendo quindi ad ogni singolo utente o gruppi di profilazione una esperienza di navigazione, accesso e fruizione dei contenuti personalizzata”.
Risultati tangibili in poco tempo grazie al cloud
Alla richiesta di una valutazione complessiva del progetto, Angelini in chiusura ci lascia con queste considerazioni: “L’approccio full cloud ci ha permesso ad aprile dello scorso anno di avviare le prime fasi sperimentali, ed a luglio di andare in produzione; questo grazie indubbiamente anche alla capacità del team, molto giovane, di lavorare in modalità Agile continuando ad ‘aggiustare il tiro’ in modo molto dinamico e di focalizzare gli sforzi iniziali su uno use case dove avevamo intuito le potenzialità economiche (quello del programmatic advertising). Onestamente posso dire che sono risultati che fino a qualche anno fa per progetti IT così complessi erano del tutto impensabili”.