Se è vero che praticamente tutti i chatbot IA in circolazione sono dotati di sistemi per impedirne l’abuso, attraverso filtri o limitazioni varie, questo non sembra fermare i tentativi degli utenti di ottenere risposte non in linea con le politiche delle piattaforme.
Nei primi mesi, con prompt complessi, era possibile facilmente ottenere accesso a informazioni potenzialmente pericolose. Oggi non è più così ma, attraverso la creazione di un sistema IA, è stato realizzato un meccanismo che consente a un chatbot di hackerare alcuni “colleghi”.
I ricercatori della Nanyang Technological University (NTU) di Singapore, hanno esaminato l’etica dei vari large language models (LLM) in circolazione, avendo infine trovato il modo per addestrare i chatbot a bypassare i meccanismi di difesa dei loro simili, con una vera e propria operazione di jailbreak.
Gli esperti hanno descritto come, in questo processo, il primo passo sia costituito dalla comprensione dei sistemi di difesa dello specifico chatbot. Una volta scoperta la logica difensiva, è poi possibile formare un altro sistema simile per aggirare le limitazioni del primo.
Masterkey è una sorta di “passepartout” per evitare qualunque filtro delle piattaforme IA
Il metodo, ideato dal professore Liu Yang e dai suoi studenti, è stato battezzato Masterkey. Si tratta di una piattaforma ideata proprio come “passepartout” per scardinare qualunque tipo di chatbot. Anche se un LLM viene sottoposto a patch per restringere i filtri, Masterkey sembra essere in grado di adattarsi e trovare il modo per tornare ad essere efficace.
A conti fatti, la tecnica di Masterkey non è poi così complessa. Il sistema sfrutta l’aggiunta di spazi aggiuntivi tra le parole per aggirare l’eventuale black list. In altri casi, viene chiesto al chatbot “vittima” di rispondere come se non avesse vincoli morali.
Con prompt studiati su misura, dunque, lo strumento trova costantemente il modo per ottenere l’output desiderato, in barba a qualunque barriera creata in precedenza per limitare l’IA.