I ricercatori addestrano chatbot per "hackerare" altri sistemi IA

Se è vero che praticamente tutti i chatbot IA in circolazione sono dotati di sistemi per impedirne l’abuso, attraverso filtri o limitazioni varie, questo non sembra fermare i tentativi degli utenti di ottenere risposte non in linea con le politiche delle piattaforme.

Nei primi mesi, con prompt complessi, era possibile facilmente ottenere accesso a informazioni potenzialmente pericolose. Oggi non è più così ma, attraverso la creazione di un sistema IA, è stato realizzato un meccanismo che consente a un chatbot di hackerare alcuni “colleghi”.

I ricercatori della Nanyang Technological University (NTU) di Singapore, hanno esaminato l’etica dei vari large language models (LLM) in circolazione, avendo infine trovato il modo per addestrare i chatbot a bypassare i meccanismi di difesa dei loro simili, con una vera e propria operazione di jailbreak.

Gli esperti hanno descritto come, in questo processo, il primo passo sia costituito dalla comprensione dei sistemi di difesa dello specifico chatbot. Una volta scoperta la logica difensiva, è poi possibile formare un altro sistema simile per aggirare le limitazioni del primo.

Masterkey è una sorta di “passepartout” per evitare qualunque filtro delle piattaforme IA

Il metodo, ideato dal professore Liu Yang e dai suoi studenti, è stato battezzato Masterkey. Si tratta di una piattaforma ideata proprio come “passepartout” per scardinare qualunque tipo di chatbot. Anche se un LLM viene sottoposto a patch per restringere i filtri, Masterkey sembra essere in grado di adattarsi e trovare il modo per tornare ad essere efficace.

A conti fatti, la tecnica di Masterkey non è poi così complessa. Il sistema sfrutta l’aggiunta di spazi aggiuntivi tra le parole per aggirare l’eventuale black list. In altri casi, viene chiesto al chatbot “vittima” di rispondere come se non avesse vincoli morali.

Con prompt studiati su misura, dunque, lo strumento trova costantemente il modo per ottenere l’output desiderato, in barba a qualunque barriera creata in precedenza per limitare l’IA.

I ricercatori addestrano chatbot per "hackerare" altri sistemi IA

Masterkey è una sorta di “passepartout” per evitare qualunque filtro delle piattaforme IA

Ti consigliamo anche

Test matematici USAMO 2025: tutti i modelli AI deludono le aspettative

Intel rilancia anche con i nuovi SoC Panther Lake e Nova Lake per i veicoli

Adobe, svolta Photoshop: nuovo agente AI e aggiornamenti Firefly

Gli occhiali smart di Ray-Ban Meta iniziano a diventare davvero utili