FIRENZE – Sembrano passati secoli dalla prima conferenza internazionale sul web, tenutasi presso il Cern di Ginevra nel 1994, a 5 anni dalla sua creazione da parte di Tim Berners-Lee. Da allora è enormemente aumentata la popolazione che sfrutta Internet, grazie all’efficienza dei meccanismi di search, alla diffusione del mobile e a un crescente utilizzo del web, diventato lo strumento principe di accesso alle informazioni in rete. Quando Google è nata, nel ’98, serviva 10mila richieste di ricerca al giorno, mentre “al momento attuale, ogni giorno Google risponde a tre miliardi di ricerche e si stima ci siano oltre 60mila miliardi di pagine web”, come ha ricordato Andrei Broder, Distinguished Scientist dell’azienda di Mountain View, durante il WWW15, 24-esima conferenza internazionale sul web, tenutasi per la prima volta in Italia, a Firenze, e rivolta, come di consueto, a scienziati e ricercatori dell’It, ai rappresentanti del mondo accademico e delle multinazionali del web, a sviluppatori e utenti.
Le logiche interattive dei social network hanno contribuito ad incrementare la massa di dati, che rappresenta una ricchezza, ma pone anche nuovi dilemmi e problematiche di sicurezza e di privacy, impensabili fino a pochi anni fa. “Mentre lo stesso web come oggi lo conosciamo andrà ripensato non solo per tener conto di nuove logiche di servizio, ma anche per raggiungere un numero crescente di persone, molte delle quali sanno a malapena leggere”, come lo stesso Broder ha ricordato.
I dilemmi della digitalizzazione
Sul web, i dati personali sono la moneta con la quale gli utenti pagano i fornitori di contenuti, ma una volta che li hanno ceduti perdono “il controllo sulle informazioni che erano di loro proprietà”, dice Hofmann.“Gli stati, la società civile e il settore privato dovrebbero impegnarsi per trovare risposte a una serie di interrogativi per i quali la sola regolamentazione non è sufficiente”, ha sostenuto Jeanette Hofmann, Direttrice dell’Humboldt Institute for Internet and Society di Berlino, elencando i dilemmi principali che l’evoluzione della web society deve fronteggiare.
Vi è poi un problema di sicurezza a lungo termine: anche grazie ai dati forniti dagli utenti, molti servizi sul Web migliorano progressivamente, ma non si conoscono gli effetti a lungo termine dell’accumulo di questi dati.“Le chiavi di criptaggio che oggi proteggono i nostri dati potrebbero non essere più efficaci fra 15 o 20 anni”, sottolinea Hofmann.
La direttrice dell’Umboldt Institute evidenzia poi come il tema degli ‘zero rating contract’, proposti in paesi come India e Brasile, dove l’accesso dati alla rete mobile è gratuito, ma la larghezza di banda è regolata dall’operatore dimostri che, pur di accedere alla Rete, molti utenti non si curano della sua neutralità: “Gli sforzi per colmare il digital divide, il divario fra chi può accedere alla Rete e chi no, e quelli per difendere la net neutrality, la circolazione di dati senza restrizioni o corsie preferenziali, sono quindi in conflitto fra loro”.
Altro dilemma è il “diritto a essere dimenticati”, sancito un anno fa dalla Corte Europea di Giustizia, ma che risulta di non facile applicazione sia per l’elevato numero di richieste (la sola Google ha ricevuto 250mila richieste relative a un milione di account) sia per la tentacolare rete di incastri tra i diversi account posseduti dagli utenti (molti dei quali ci si dimentica di avere).
L’ultimo dilemma riguarda il ruolo dei servizi di intelligence che considerano “la soluzione migliore intercettare tutti i dati che passano dalla Rete e conservarli, come il caso Snowden ha evidenziato”.
Queste criticità sono gran parte conseguenza della quantità di dati che il web porta con sé, solo poco tempo fa inimmaginabile; quantità destinata a crescere ancora, insieme ai dilemmi irrisolti che portano con sé.
Oltre i big data, scopriamo il valore degli small data
Il tema della gestione dei dati generati dal web è stata al centro dell’evento collaterale Big15 (Big data Innovation Gathering) che ha affrontato l’evoluzione dal punto di vista tecnico, cercando di capire come potranno essere superati i sistemi MapReduce (framework software brevettato e introdotto da Google per supportare la computazione distribuita su grandi quantità di dati in cluster di computer, ma che a 10 anni dalla sua creazione mostra i suoi limiti di funzionamento, ad esempio quando siano richieste risposte molto rapide o nell’elaborazione di grafi e altri casi particolari) e quale sarà lo scenario dal punto di vista delle applicazioni business, dove si è assistito alla trasformazione dell’ambiente dei datawarehouse tradizionali e dei cicli di generazione delle analisi (con nuovi approcci come l’in-memory computing).
La vera novità è però stata portata da Deborah Estrin, professoressa di Computer Sciences alla Cornell Tech di New York che ha evidenziato le grandi opportunità che si generano per sfruttare anche gli “small data”, come ha chiamato il continuo flusso di informazioni personali generate dalla nostra vita online: “Ognuno di noi lascia dietro di sé una scia di briciole digitali prodotte dai servizi digitali che usiamo. Purtroppo però, non ci sono ancora abbastanza strumenti per sfruttare queste informazioni in modo che siano utili e rilevanti per il singolo utente. I provider che ci forniscono l’accesso a Internet o gestiscono i social network catturano e analizzano le nostre tracce, per migliorare il servizio e personalizzarlo o per definire i target della pubblicità, ma non restituiscono nulla a chi ha generato i dati”. A questo sta lavorando lo Small Data Lab, guidato dalla stessa Estrin, dove si sperimentano applicazioni soprattutto in campo sanitario, capaci di analizzare le tracce che ciascuno di noi lascia sul web e nel cloud, lavorando, giocando, comunicando, facendo ginnastica e shopping, sempre più numerose grazie alla diffusione dei dispositivi mobili. Per ora sono state create app come Pushcart che, sulla base degli scontrini elettronici dei negozi di generi alimentari, è in grado di formulare raccomandazioni sull’apporto nutritivo dei futuri acquisti. Un altro esempio è l’app Ora, particolarmente utile per gli anziani, che, sulla base dell’attività dello smartphone, inclusa la localizzazione, tiene aggiornati familiari o amici sulle loro condizioni: “Gli anziani, anche quando non sono particolarmente digitali, portano con sé cellulari e sempre più usano Internet”. spiega Estrin.
La disponibilità di app capaci di riorganizzare i dati personali in una forma utile e accessibile a chi li genera aiuta anche a creare la consapevolezza della quantità di “briciole” che continuamente seminiamo sul web e del loro valore, anche se questo non basta a risolvere i problemi di privacy e sicurezza: “La conservazione dei nostri dati personali è meno preoccupante se l’utente, invece di dare semplicemente il consenso, è consapevole dei rischi e dei vantaggi. Se gli small data che produciamo vengono riusati da noi stessi, è tutto più ragionevole: del resto, l’utilità di aggregare le tracce digitali che noi stessi produciamo è innegabile”, afferma Estrin.
La creazione di un’adeguata architettura sia tecnologica sia sociale per sfruttare i piccoli dati renderà possibili le applicazioni in vari ambiti, andando ben oltre quelle sperimentate dallo Small Data Lab, assicura infine la professoressa.
Dal search al request, dalla ricerca alla richiesta
Orientarsi nel mare magnum delle informazioni per trovare quanto si sta cercando è stata ed è una delle condizioni per il successo del web. Lo sa bene Broder, uno dei padri dei motori di ricerca, che negli ultimi 20 anni ha dato un contributo fondamentale alla loro evoluzione. Particolarmente significativa è stata dunque la sua richiesta, alla platea di scienziati e ricercatori, di non usare più la parola search, per sostituirla con request. Questo invito nasce dall’osservazione che oggi le funzionalità richieste dagli utenti non si limitano più alla ricerca, per quanto sofisticata, ma si estendono a servizi di assistenza, anche di tipo transazionale, mentre alle origini la sfida per il web riguardava soprattutto i meccanismi di search e la loro efficienza.
“Nel 1995, il motore di ricerca Altavista con 2,5 milioni di pagine web scansionate al giorno e 30 milioni di pagine indicizzate dichiarava di essere 100 volte più veloce dei concorrenti. Al momento attuale, ogni giorno Google risponde a tre miliardi di ricerche”, ha ricordato Broder.
Per cercare di capire cosa ci riserverà il futuro nel web search, Broder ha ripercorso le tappe dei motori di ricerca dal mitico Altavista (di cui era chief scientist) per affrontare le sfide attuali.
Alla sua nascita Google aveva considerato 100 milioni di pagine web un limite invalicabile per il search, sulla base di vincoli posti dalle risorse all’epoca disponibili. Questo limite è successivamente stato superato grazie al salto di qualità derivante dalla diffusione dei sistemi distribuiti (meno dispendiosi e più scalabili) e dalla struttura degli hyperlink come potente nuovo indicatore centrale di rilevanza (per identificare il ranking di rilevanza, ossia per selezionare i documenti di maggior pertinenza rispetto alla ricerca, i primi motori di ricerca, come Lycos e AltaVista, utilizzavano algoritmi tradizionali basati prevalentemente sull’analisi del testo, mentre i successivi motori di ricerca, come Google, hanno introdotto algoritmi basati sulla struttura a grafo degli hyperlink per determinare l’importanza della pagina indipendentemente dal suo contenuto testuale. In pratica una pagina aumenta il proprio punteggio e viene portata in evidenza non solo per il suo contenuto ma anche per i suoi legami, attraverso il link, con il web).
Fino al 2007 l’evoluzione del web search si è fondata su tre pilastri, ha ricordato Broder, derivanti dalle richieste degli utenti: aumento di efficienza (faster response, che eviti agli utenti di perdere tempo); aumento della quantità di dati analizzati che doveva andare di pari passo con la qualità della ricerca; maggiori funzionalità.
La logica di ricerca si è evoluta, dall’information retrieval classica all’information retrieval di tipo web. La prima effettua la ricerca su un insieme predefinito di documenti e ha l’obiettivo di fornire un contenuto informativo rilevante rispetto alla richiesta, senza tenere conto del contesto e di chi effettua l’interrogazione. La seconda, invece, ha come base di ricerca l’intero web, che non ha una struttura predefinita, è in continua evoluzione e contiene informazioni discordanti. Per l’information retrieval web è stata definita una tassonomia delle richieste degli utenti, a sua volta evolutasi, e che Broder sintetizza, in: informative, navigazionali, transazionali. Ma oggi chi richiede informazioni non si aspetta più solo una pagina web rilevante, ma si spinge alla richiesta di dati personali, risposte dirette, dati real time, anticipazioni delle proprie necessità. Quando si vogliono effettuare attività transazionali (per esempio acquisti on line, prenotazioni, fare download,…) ci si aspetta sia di accedere a una pagina che abiliti la transazione sia di ricevere assistenza per l’esecuzione diretta dell’operazione, senza uscire dalla pagina stessa.
“Già oggi, con un comando vocale, è possibile chiedere allo smartphone di aprire un’applicazione, di fornire le previsioni del tempo o di ricordare l’orario di un volo – esemplifica Broder – Non è più una ricerca in senso stretto, ma un servizio di assistenza. L’obiettivo finale è arrivare a un livello molto più sofisticato di assistenza, che richiederà il superamento di numerosi ostacoli sul fronte dell’intelligenza artificiale”. A quel punto, parlare di “motore di ricerca” non avrà davvero più senso.
Seoul Test of Time Award assegnato a Larry Page e Sergey Brin
WWW2015 ha lanciato infine la prima edizione del Seoul Test of Time Award, assegnandolo ai fondatori di Google, Sergey Brin e Larry Page, per uno dei lavori più influenti mai pubblicati nel campo della computer science, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, presentato nel 1998 alla World Wide Web Conference di Brisbane e che fece conoscere Google al mondo.
Il premio sarà assegnato annualmente agli autori di un paper presentato durante le conferenze del passato e che hanno retto alla prova del tempo.