Le informazioni pubblicamente accessibili sul Web sono una delle fonti primarie, se non la più importante in assoluto, usate delle aziende specializzate nello sviluppo di modelli generativi. Come abbiamo spesso messo in evidenza, i Large Language Model (LLM) oggi disponibili sono sottoposti a una fase di addestramento che, utilizzando un approccio matematico-statistico, consente di derivare le corrispondenze tra i termini presenti in qualunque testo, facendo emergere semantica e concetti.
Con un recente provvedimento, il Garante Privacy italiano ha delineato le possibili azioni di contrasto per evitare che pagine Web contenenti (anche) dati personali possano essere utilizzate ai fini dell’addestramento dei modelli generativi.
Secondo l’Autorità spetta proprio al titolare del trattamento attivarsi in maniera tale da proteggere adeguatamente i dati pubblicati sul Web. In una nota informativa, il Garante definisce il concetto di Web scraping e fornisce le indicazioni per proteggersi dall’azione automatizzata esercitata dai bot utilizzati per rastrellare informazioni, poi utilizzate nelle applicazioni di intelligenza artificiale generativa.
Le azioni che devono porre in essere i siti Web per proteggere i dati personali
Le discussioni in merito al rispetto del GDPR sono solitamente incentrate sui soggetti che usano tecniche di Web scraping per “rastrellare” le informazioni pubblicate online.
Il nuovo documento del Garante si concentra invece sulla posizione dei soggetti, pubblici e privati, gestori di siti Web e piattaforme online, operanti in qualità di titolari del trattamento di dati personali, che rendono pubblicamente disponibili dei dati (anche personali), potenzialmente acquisibili da bot di terze parti.
La nota dell’Autorità italiana fornisce “prime indicazioni sulle tecniche di raccolta massiva di dati personali dal Web per finalità di addestramento dei modelli di intelligenza artificiale generativa” e presenta ai gestori dei siti Web e delle piattaforme online possibili azioni di contrasto che potrebbero essere adottate per mitigare gli effetti del Web scraping (nel caso in cui tale pratica fosse ritenuta incompatibile con la specificità dei dati trattati).
I suggerimenti del Garante per difendere i dati dall’azione di bot ritenuti inaccettabili
Il Garante ricorda le conclusioni di uno studio elaborato da Imperva, società del gruppo francese Thales. Nel 2023, quasi il 50% di tutto il traffico Internet è stato generato dai bot con un aumento pari al 2,1% rispetto all’anno precedente. Un balzo in avanti parzialmente ricondotto alla diffusione di sistemi di intelligenza artificiale e, in particolare, dei LLM.
Creazione di aree riservate
Così, per evitare l’acquisizione automatizzata dei dati, l’Autorità suggerisce – ove possibile – la creazione di aree riservate, a cui si può accedere solo previa registrazione. Il bot, generalmente, non effettua una registrazione (a meno che non si tratti di piattaforme di grandi dimensioni): quanto proposto tramite area riservata è quindi sottratto alla pubblica disponibilità.
Aggiornamento dei Termini di Servizio
Il secondo consiglio ha a che fare con l’aggiornamento dei Termini di Servizio (ToS) di un sito web o di una piattaforma online, aggiungendo l’espresso divieto relativo all’utilizzo di tecniche di Web scraping. Il Garante Privacy fa presente che questo tipo di integrazione costituisce una clausola contrattuale che, se non rispettata, consente ai gestori di siti e piattaforme di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte.
Monitoraggio del traffico
Ancora, il monitoraggio del traffico di rete aiuta a individuare eventuali flussi anomali di dati in ingresso e in uscita, con la possibilità di adottare opportune contromisure. Il rate limiting, che può essere attivato di default, è una tecnica volta a limitare il numero di richieste (e quindi il traffico generato) utile per bloccare attività di Web scraping di tipo massivo.
CAPTCHA e uso di robots.txt
Il Garante cita inoltre l’adozione di verifiche CAPTCHA per impedire l’operatività dei bot e l’uso del file robots.txt
. I bot legittimi, compresi quelli utilizzati dalle principali società che si occupano di raccogliere dati per l’addestramento dei LLM, si adeguano alle indicazioni contenute in tale file. Ad esempio, è possibile impostare una direttiva Disallow a livello di robots.txt
per impedire la scansione dei contenuti Web da parte di GPTbot (OpenAI). La stessa cosa si può fare, ad esempio per ClaudeBot di Anthropic come per altre soluzioni alternative.
Citiamo ad esempio Google-Extended: si tratta del bot utilizzato da Google per alimentare i modelli Gemini e Vertex AI. L’eventuale blocco tramite robots.txt
, non influisce sull’inserimento o sul ranking di un sito nel motore di ricerca Google Search.
Note finali e conclusioni
Nel documento condiviso, ci sono poi suggerimenti come la modifica periodica dell’HTML delle pagine, così da rendere più complicata l’azione dei bot. A nostro avviso, in questo caso si rischierebbe soltanto di rischiare problemi di indicizzazione da parte dei motori sui quali si desidera essere presenti. Esistono tecniche molto semplici per estrapolare il testo, indipendentemente dalla struttura HTML. Figurarsi se le aziende che sviluppano strumenti nel campo dell’intelligenza artificiale non ne fanno uso.
Allo stesso modo, è impensabile ormai che un testo contenente dati personali, trasformato in immagine, non possa essere letto tramite strumenti automatizzati. I sistemi OCR (riconoscimento ottico dei caratteri) sono spesso alla base degli strumenti sviluppati per lo spidering (o crawling) del Web.
Infine, come peraltro osserva lo stesso Garante, il controllo dello user agent ovvero la stringa con cui si presentano i bot (come qualunque altro client) è ormai quanto meno anacronistico. Un dato come lo user agent può infatti essere facilmente rimosso o falsificato.
Al di là degli aspetti tecnici, comunque, il Garante invita esplicitamente i gestori di siti Web, indipendentemente dalle dimensioni delle loro proprietà, a valutare quando risulti necessario, in conformità con la disciplina vigente, sottrarre i dati personali trattati all’azione dei bot di terze parti. Le azioni di contrasto come quelle indicate sono definite non esaustive né per metodo, né per risultato, ma possono comunque contenere gli effetti del Web scraping finalizzato all’addestramento dei modelli per l’intelligenza artificiale generativa.
Credit immagine in apertura: iStock.com – kelvn