Il Garante Privacy italiano ha appena reso noto il testo di un provvedimento assunto nei confronti di un soggetto con sede nel nostro Paese che, servendosi di appositi crawler (o spider), scandagliava il contenuto delle pagine Web alla ricerca di numeri di telefono e dei relativi contatti. L’attività di Web scraping era stata posta in essere con l’obiettivo di formare e diffondere online un elenco telefonico il più possibile completo e aggiornato.
Come spiega l’Autorità Garante per la protezione dei dati personali, la normativa attualmente vigente non consente la creazione di elenchi telefonici generici che non siano estratti dal DBU, il database unico che contiene la lista delle utenze e i dati identificativi dei clienti di tutti gli operatori nazionali, su rete fissa e mobile.
Cosa si intende per Web scraping
Con l’espressione Web scraping si fa riferimento al processo di estrazione automatica di informazioni dalle pagine Web utilizzando appositi software. L’operazione consente di recuperare dati strutturati o non strutturati dai siti Web, in modo automatizzato.
Questo tipo di attività può essere posto in essere a fronte di varie motivazioni: raccolta di dati pubblici per una successiva analisi, ricerca, monitoraggio dei prezzi, aggregazione di contenuti, monitoraggio della concorrenza e altro ancora. Ad esempio, un volume enorme di testi è stato ad esempio consegnato ai modelli generativi con lo scopo di addestrarli e rispondere alle domande degli utenti.
Le pagine Web scaricate sono di solito poi analizzate in maniera automatizzata per estrapolare i dati d’interesse. Allo scopo si usano librerie specializzate, strumenti di parsing HTML, espressioni regolari e altre tecniche di estrazione dei dati.
Tanti siti Web adottano misure per prevenire o ostacolare il Web scraping, ad esempio attraverso l’implementazione di CAPTCHA, bloccando gli indirizzi IP utilizzati dai crawler non riconosciuti, utilizzando il file robots.txt
per indicare quali pagine o contenuti non devono essere estratti.
Illegali le attività di Web scraping se coinvolgono dati personali
In generale, il Web scraping non è un’attività di per sé illegale. A meno che non sia vietata dai gestori dei singoli siti Web e fintanto che non si estraggono dati personali.
Nei termini di servizio di molti siti Web è riportato se il Web scraping sia consentito o vietato. Alcuni siti possono vietarlo esplicitamente, mentre altri potrebbero richiedere l’autorizzazione o il rispetto di determinate restrizioni. Questo tipo di attività, inoltre, potrebbe violare i diritti di proprietà intellettuale se si estraggono informazioni protette come testi, immagini, video o altri contenuti originali fuori dalla normale attività di navigazione, con il preciso obiettivo di riutilizzarle per altre finalità.
Nella sua decisione, il Garante osserva di essersi già più volte espresso in passato “in merito all’illiceità dell’utilizzo di dati raccolti tramite Web scraping per finalità incompatibili con quelle iniziali“. Ciò significa che soggetti terzi non hanno titolo per far propri e rielaborare dati personali che provengono da informazioni legittimamente pubblicate sul Web previa raccolta del consenso da parte dei relativi aventi diritto.
I precedenti in Italia e in Europa
Sempre il Garante italiano, infatti, nel 2022 aveva sanzionato ClearView AI rea di aver usato il Web scraping per comporre una vastissima base dati a partire da miliardi di foto pubblicate online. In questo caso, il materiale raccolto era sfruttato per migliorare il funzionamento del sistema di riconoscimento facciale dell’azienda. C’è poi la decisione del 2016 che anche in quel caso riguardava la composizione di elenchi telefonici a partire da dati raccolti sul Web con scansioni automatizzate.
Non ci sono però solamente le responsabilità di chi pone in essere attività di Web scraping senza averne diritto. Sullo sfondo resta il problema delle adeguate garanzie che deve offrire il titolare del trattamento. Il Garante Privacy irlandese ha in passato comminato una sanzione amministrativa a Facebook per non aver difeso adeguatamente i dati personali degli utenti. Il social network non avrebbe di fatto ostacolato, all’epoca dei fatti, la composizione di un elenco telefonico con i numeri di cellulare degli iscritti. Ne risultò una sorta di Pagine Bianche dei cellulari italiani e di altri Paesi che ancora oggi, purtroppo, circolano online. In particolare sul dark web.