Google ha presentato un nuovo strumento, chiamato Google-Extended, che offre agli editori di siti web la possibilità di scegliere di non utilizzare i propri dati per addestrare i modelli di intelligenza artificiale dell’azienda, pur rimanendo accessibili tramite la ricerca su Google.
Con Google-Extended, gli editori possono continuare a far analizzare e indicizzare i loro siti da robot come Googlebot, garantendo al tempo stesso che i loro dati non vengano utilizzati per migliorare i modelli di intelligenza artificiale esistenti e futuri dell’azienda.
L’opzione “toggle” offerta da Google-Extended consente agli editori web di decidere se i loro siti contribuiscono al potenziamento delle API generative di Bard e Vertex AI. In questo modo gli editori hanno un maggiore controllo sull’accesso ai contenuti dei loro siti, proteggendoli al contempo dall’utilizzo per l’addestramento dell’IA.
Google aveva annunciato in precedenza che stava addestrando il suo chatbot AI, Bard, utilizzando dati disponibili al pubblico ottenuti attraverso l’analisi dei siti web. Per sfruttare questa funzione, gli editori possono utilizzare il file robots.txt, che è un file di testo che informa i web crawler su quali siti sono autorizzati ad accedere.
Google-Extended permette agli editori di bloccare Bard e Vertex AI
Molti siti web hanno già preso provvedimenti per bloccare il web crawler di OpenAI, responsabile dell’analisi dei dati e dell’addestramento di ChatGPT. Siti famosi come il New York Times, la CNN, la Reuters e Medium hanno adottato misure per evitare che i loro contenuti vengano utilizzati per l’addestramento dell’intelligenza artificiale.
Nel suo impegno per un’IA “responsabile” e per la trasparenza, Google ha dichiarato di aver sentito le richieste degli editori di siti per un maggiore controllo su come i loro contenuti possono essere utilizzati dall’IA generativa come Bard. Per questo motivo Google ha sviluppato Google-Extended per consentire agli editori di siti di bloccare Google Bard e Vertex AI e impedire così la raccolta dei loro contenuti per alimentare l’intelligenza artificiale generativa.
Tuttavia, questa nuova opzione non offre un “roll-back”: tutti i contenuti già recuperati da Google rimangono in possesso di Big G e quindi di Bard e Vertex AI. Questo vale anche per Bing Chat e ChatGPT, naturalmente.
Come bloccare Bard e Vertex AI tramite robots.txt
Implementare Google-Extended è molto semplice. Basta utilizzare il proprio robots.txt e aggiungere quanto segue:
User-agent: Google-Extended
Disallow: /
È tutto qui. Naturalmente, Google spiega che consentire il recupero dei contenuti permette alle sue IA di migliorare e diventare più precise ed efficienti, e che sarebbe meglio consentire loro l’accesso… (perché? Altrimenti si perde visibilità?). Per l’azienda, sarebbe svantaggioso se tutti i siti impedissero a Bard e Vertex AI di usare i loro dati. Tuttavia, è opportuno dare agli editori dei siti la libertà di scegliere se consentire o meno alle IA generative di accedere ai loro contenuti.