Avete presente quando il motore di ricerca Google o meglio i suoi crawler effettuano la scansione delle pagine Web analizzandone il contenuto e seguendo tutti i vari link in esse presenti? Ecco, questo è un esempio di scraping assolutamente legittimo.
Con il termine scraping (in italiano potrebbe essere tradotto con “grattare”, “raschiare”) o web scraping ma anche web harvesting o web data extraction, si fa comunemente riferimento a una specifica attività che consiste nell’estrarre dei dati da uno o più siti Web usando procedure automatizzate.
Tornando a Google, il crawler – chiamato Googlebot – rileva e acquisisce gli elementi (non soltanto i testi…) presenti nelle pagine Web per poi passare la palla ai componenti che effettuano l’indicizzazione e stabiliscono il ranking così da facilitare, successivamente, la ricerca e la visualizzazione dei contenuti indicizzati.
Il fatto che Google rilevi e indicizzi i contenuti Web è una cosa positiva: chi ha una qualunque attività deve poter essere individuabile con una ricerca e, possibilmente, deve offrire la migliore risposta alle interrogazioni avanzate dagli utenti sul motore di ricerca. Il noto file robots.txt, ideato addirittura a metà 1994, è una delle tante tecniche che permettono di escludere delle risorse dall’attività di crawling e indicizzazione svolte da Google, dagli altri motori di ricerca, dagli spider (sinonimo di crawler) e in generale dai “bot”.
Anche in risposta a certe fantasiose pretese in materia di tutela del copyright, Google ha sempre ricordato che gli interessati possono usare il file robots.txt per evitare l’indicizzazione dei loro contenuti.
In linea di principio le attività di scraping non sono illecite e non sono vietate. Quando però queste vengono eseguite con il preciso intento di causare un danno al sito Web che le subisce (ad esempio avanzando un volume elevato di richieste contemporanee con il risultato di una sorta di attacco DoS; quando lo scraping causa un eccessivo impiego di risorse e banda di rete) oppure sfruttate per creare archivi contenenti dati personali, magari mettendo in correlazione più pagine e più servizi, allora lo scraping non è permesso e anzi si commette un’azione illecita.
Nelle condizioni di utilizzo di un sito Web (TOS, Terms of Service) è di solito esplicitato chiaramente cosa è possibile fare e cosa no; quando le attività di scraping sono vietate ed eventualmente perseguibili.
Scraping su Facebook: l’azienda multata per non aver protetto i suoi utenti
Nel 2021 Facebook aveva subìto una pesante attività di scraping da parte di un gruppo di sconosciuti che hanno fatto girare una serie di bot sul social network di Mark Zuckerberg.
Un tempo Facebook permetteva di effettuare ricerche dei numeri di telefono senza limiti: bastava digitare il numero nella casella di ricerca per verificarne l’intestatario. Oggi lo si può fare solamente per i contatti che si hanno fra gli amici ma una volta la ricerca era “universale”.
Ecco, un gruppo di sconosciuti ha inviato milioni di richieste a Facebook annotando la risposta ricevuta alla ricerca di ciascun numero di telefono. È stato così possibile comporre delle Pagine bianche dei numeri di cellulare italiani insieme con nomi e cognomi dei rispettivi intestatari oltre che con tutti i dati recuperati dai profili Facebook (sesso, posizione geografica, stato delle relazioni, occupazioni, date di nascita e indirizzi email).
Ovviamente gli autori dell’operazione di scraping non si sono concentrati solamente sull’Italia riuscendo a creare un database (poi diffuso gratuitamente online) contenente 533 milioni di record, con più di 36 milioni di numerazioni telefoniche italiane.
Ancora oggi i dati continuano a rimbalzare online, anche se il Garante Privacy italiano ha ricordato a “chiunque sia entrato in possesso dei dati personali provenienti dalla violazione, che il loro eventuale utilizzo, anche per fini positivi, è vietato dalla normativa in materia di privacy, essendo tali informazioni frutto di un trattamento illecito“.
Meta, la “casa madre” di Facebook, è stata sanzionata dal Garante Privacy irlandese (Irish data protection commission, DPC) con una multa da 265 milioni di euro.
In questo caso era presente su Facebook un bug che di fatto facilitava l’attività di scraping, poi corretto nel 2019. L’Autorità ha però esortato le piattaforme come Facebook a svolgere una sorveglianza più attiva per bloccare fenomeni di scraping che possano impattare sulla sicurezza e sulla privacy degli utenti finali.
Alcuni servizi Web offrono protezione nei confronti delle richieste massive provenienti dagli stessi indirizzi IP, facilmente ascrivibili ad attività di scraping. L’utilizzo di reCAPTCHA o del CAPTCHA Turnstile di Cloudflare aiuta a bloccare le richieste automatizzate mettendo al tappeto l’attività dei bot. Ovviamente le aziende di più grandi dimensioni possono beneficiare dell’analisi del traffico in tempo reale per far emergere in tempo reale quei segnali che possono essere la cartina tornasole di importanti operazioni di scraping.