Perplexity: motore di ricerca IA estrae dati da siti anche senza consenso?

Perplexity aggira le direttive di robots.txt per accedere ai siti anche se i crawler sono bloccati: ecco come agisce.

Secondo quanto emerso da un’indagine di Rob Knight, proprietario di un blog tecnologico, il motore di ricerca basato sull’Intelligenza Artificiale noto come Perplexity sta attuando un comportamento discutibile.

Knight, infatti, dopo aver bloccato i crawler di Perplexity, ha scoperto che l’engine ignorava deliberatamente il file robots.txt del proprio sito, scansionando lo stesso con i propri crawler. Questo documento viene utilizzato dagli amministratori per chiedere il blocco della scansione ma, a quanto pare, il suddetto motore di ricerca non sembra rispettare queste direttive.

Sebbene si sia parlato recentemente in termini positivi di questa piattaforma, con l’introduzione della funzionalità Pages, questo tipo di comportamento invasivo non è di certo apprezzato dai gestori di siti e piattaforme digitali.

I motori di ricerca (tra cui Google, Bing e Yahoo) utilizzano i crawler per scansionare l’enorme quantità di dati presenti online, per poi fornire gli stessi nei risultati di ricerca. Il caso legato a Perplexity è però alquanto particolare, visto che vede un’integrazione profonda di ricerche online e IA. In tal senso, gli amministratori dei siti potrebbero non essere contenti di avere a che fare con i suoi crawler.

Per evitare la scansione di questo motore di ricerca specifico, di fatto, è necessario affidarsi al file robots.txt con un comando testuale specifico.

Perplexity, crawler e robots.txt: una questione pratica ed etica

Le indagini di Knight a riguardo sono state tanto semplici quanto efficaci.

Una volta bloccato il motore di ricerca in questione tramite robots.txt, lo stesso ha cercato dati sul suo sito su Perplexity. L’engine, a quanto pare, ha dimostrato di avere pieno accesso a tali contenuti, nonostante le direttive dell’amministratore del sito.

Ulteriori indagini hanno rivelato che PerplexityBot (il crawler della piattaforma) utilizza un browser headless per acquisire contenuti online, di fatto ignorando il classico passaggio da robots.txt. Ciò ha permesso all’IA di bypassare questo documento, attingendo senza limitazioni al blog in questione.

Nonostante ciò, la questione rispetto a crawler e IA si va ad aggiungere ai tanti altri dubbi riguardanti questa tecnologia. Di certo, le società che gestiscono piattaforme IA, di mese in mese sembrano essere sempre più voraci di nuovi contenuti, a volte andando anche oltre il confine del buonsenso (e non solo).

Ti consigliamo anche

Link copiato negli appunti