Con l’AI generativa è cominciata la guerra dei dati

Da Twitter a Reddit, arrivano le prime contromisure nei confronti dei “cacciatori di dati” online. Come cambierà il mondo di Internet nel nuovo scenario?

Quando si è cominciato a parlare dei dati come “nuovo petrolio”, ci si è dimenticati di considerare un aspetto che ha sempre caratterizzato le materie prime essenziali per il mercato: il fatto che spesso portano alla nascita di veri e propri conflitti per impossessarsene. Quello che sta accadendo su Internet in queste settimane è probabilmente solo l’antipasto di un cambiamento con cui tutti, nel settore tecnologico, dovranno fare i conti.

Indice degli argomenti

La mossa di Elon Musk che apre il dibattito

La notizia, circolata nelle scorse ore, riguarda Twitter e le nuove policy volute dal neoproprietario Elon Musk. Un “giro di vite” clamoroso, che impedisce la visualizzazione dei tweet senza eseguire il login e limita gli accessi al social network con una soglia di 6.000 messaggi visualizzabili per gli account verificati (quelli a pagamento) e di 600 per tutti gli altri. Il motivo, espresso chiaramente dallo stesso Elon Musk, è semplice: il social network sta subendo un costante “drenaggio” di contenuti da parte delle aziende che sviluppano sistemi di AI generativa.

La motivazione, in realtà, è alla base anche di un’altra scelta fatta da Twitter nei mesi scorsi, quella cioè di disattivare le API gratuite e proporne solo a pagamento. Una mossa che parte dell’opinione pubblica aveva frettolosamente letto come un tentativo di monetizzare il traffico, ma che più probabilmente voleva rappresentare un primo argine allo scraping di dati subito da Twitter.

Qualcosa di molto simile lo ha fatto anche Reddit, cancellando anche in questo caso le API gratuite. Nel caso dello storico sito fondato da a Steve Huffman e Alexis Ohanian, la decisione ha sollevato veementi proteste da parte degli utenti e uno “sciopero” dei moderatori che si sta trascinando ancora oggi.

Nessuna sorpresa: solo matematica

Il ragionamento alla base delle scelte di Twitter e Reddit non può stupire. In sintesi: una cosa è gestire un aumento di traffico generato da utenti che rientrano nel modello di business dell’azienda, un altro è trovarsi sommersi da accessi che mirano a estrarre valore dai dati conservati sui sistemi.

In altre parole, il rastrellamento di informazioni operato da chi usa siti e social network come fonti per popolare i dataset utilizzati dagli algoritmi di AI si concretizza nel classico “oltre al danno, la beffa”. Il danno è rappresentato da costi di gestione che non portano ad alcun ritorno economico, la beffa dal fatto che quei dati raccolti in anni di attività vengono sfruttati da altri per generare un valore. Tanto più che, con l’adozione generalizzata delle tecnologie cloud basate su scalabilità e formula “pay per use”, il danno di cui sopra è ancora più facilmente individuabile e quantificabile.

In questo scenario, le parole dello stesso Musk riguardo i rischi dell’introduzione massiva di sistemi di AI generativa e i conseguenti appelli per una sorta di moratoria assumono tutto un altro senso. In particolare, perché ChatGPT e soci introducono un cambio di prospettiva nel nostro modo di considerare i dati che avrà ripercussioni tutt’altro che banali.

Quel “petrolio” che ora ha valore per tutti

Quello tra dati e petrolio, fino a oggi, era un paragone “monco”. Per leggerla attraverso una lente giuridica, ai dati mancava quella caratteristica di fungibilità che nel mondo “fisico” definisce una materia prima essenziale. Insomma: fino a qualche mese fa, eravamo abituati al fatto che i dati non avessero lo stesso valore per tutti.

Con l’AI generativa, le cose sono cambiate. Lo sviluppo dei modelli di linguaggio LLM (Large Language Models) richiedono grandi quantità di dati e, in quest’ottica, qualsiasi contenuto ha un valore, anche quelli che fino a oggi si pensava non potessero averne alcuno se estrapolati dall’ecosistema in cui si trovavano.

Le informazioni pubblicate su Facebook dagli utenti, per esempio, consentono al social network di alimentare il suo sistema di profilazione e advertising, ma nelle mani di qualcun altro potevano essere al massimo utilizzate in maniera “indiretta”, come nel celebre scandalo Cambridge Analytica. Lo stesso si può dire per i contenuti pubblicati dai siti di news o da progetti che non hanno scopi di lucro come Wikipedia.

Insomma: la corsa alla raccolta di informazioni rischia di spostare gli equilibri ben al di là di quanto si potesse pensare e a un livello che è stato (fino a oggi) completamente trascurato. Nella pratica, il cambiamento rischia di essere l’ennesima picconata a quel World Wide Web che, fino a qualche tempo fa, sembrava per sua stessa natura essere allergico agli steccati. Dove ci porterà questa nuova “splinternet” (l’Internet frammentata che sta emergendo) però, è ancora tutto da capire.