La scoperta alla quale sono pervenuti alcuni ricercatori di Google può, a nostro avviso, rappresentare un po’ una spina nel fianco di OpenAI. Vi ricordate la decisa presa di posizione dell’azienda che osservava come i contenuti prodotti da ChatGPT e dai sottostanti modelli generativi non possano essere oggetto di contestazioni in tema di copyright? OpenAI spiegava che i suoi modelli di intelligenza artificiale apprendono da dati esistenti, come farebbe una persona in carne ed ossa, ma non memorizzano le informazioni. Il “segreto” consiste nello stabilire relazioni probabilistiche, attraverso un sistema di pesi, tra i termini incontrati durante la fase di apprendimento.
Provate però ad esaminare la risposta di ChatGPT a questo prompt inusuale: il modello generativo dapprima segue l’indicazione fornita in input e poi inizia a produrre testi che riportano in bell’evidenza l’indicazione “copyright“, insieme con il riferimento al corrispondente detentore dei diritti.
La scoperta del team di Google non aiuterà di certo nella vertenza legale che un gruppo di editori, autori e scrittori ha intentato nei confronti di OpenAI e che adesso inizierà nelle aule dei tribunali d’Oltreoceano. Facile ipotizzare, come spieghiamo di seguito, che OpenAI “derubricherà” l’incidente a un bug o a una vulnerabilità del sistema, già risolta o in corso di sistemazione.
ChatGPT restituisce i dati di addestramento: una gaffe non da poco
Come spiegano nel dettaglio i ricercatori Google all’interno del documento Extract Training Data from ChatGPT, è bastato chiedere al chatbot di ripetere sempre una stessa parola (ad esempio i termini “company” oppure “poem“) per indurre in errore l’applicazione e portarla a condividere informazioni riservate, come appunto i dati di addestramento utilizzati da OpenAI.
La scoperta è significativa perché ChatGPT si basa su un modello utilizzato in produzione. Chiedendo all’intelligenza artificiale OpenAI di ripetere una specifica parola all’infinito, ChatGPT è portato a rivelare informazioni personali, come indirizzi email e numeri di telefono. Inoltre, osservano gli studiosi, circa il 5% delle risposte di ChatGPT nella configurazione più avanzata consiste in una copia diretta di 50 token consecutivi tratti dal suo set di dati di addestramento.
I ricercatori Google stimano che sia possibile estrarre circa un gigabyte di dati di addestramento da ChatGPT con un contenuto investimento in denaro. Esortano inoltre sia OpenAI che le altre aziende impegnate nello sviluppo di soluzioni basate sull’intelligenza artificiale a testare i modelli in produzione per verificare che i sistemi basati su di essi non contengano vulnerabilità.
La correzione di singoli exploit (come nel caso specifico degli attacchi “company” e “poem“) non equivale assolutamente a un intervento risolutivo sulle sottostanti vulnerabilità. Mentre un filtro in output può impedire un attacco specifico, risolvere la vulnerabilità che porta alla memorizzazione dei dati di addestramento è decisamente più complesso.
Nel documento elaborato dai ricercatori ci sono anche i riferimenti ai dati di addestramento che corrispondono a informazioni pubblicate sul Web. Si vuole così dimostrare che trattasi di dati reali e non di frasi generate in modo pseudocasuale.