Scoperto prompt injection che corrompe la memoria a lungo termine di Gemini

Il prompt injection indiretto è un fenomeno in forte crescita nell’ambito dell’hacking dell’Intelligenza Artificiale. Questo tipo di azione invasiva viene utilizzata per indurre i chatbot a esfiltrare dati sensibili o eseguire altre operazioni dannose.

Visto l’enorme pericolo annesso a questa pratica, tutti i principali modelli AI, da ChatGPT a Gemini, hanno mano a mano affinato sistemi di protezione. Nonostante ciò, gli hacker continuano a trovare nuove scorciatoie efficaci.

Nella giornata di lunedì, il ricercatore Johann Rehberger ha dimostrato un nuovo modo per ignorare le difese che gli sviluppatori Google hanno integrato in Gemini, nello specifico che limitano le interazioni di Google Workspace o di altri strumenti sensibili durante l’elaborazione di dati non attendibili, come e-mail in arrivo o documenti condivisi.

Il risultato del test di Rehberger è l’impianto permanente di una memoria a lungo termine manipolata, che risulta poi presente in tutte le sessioni future. Ciò porta il chatbot a interagire su informazioni o istruzioni false in seguito.

Prompt injection e Gemini: l’AI è ancora “credulona”

Negli scorsi mesi Rehberger aveva già palesato come il prompt injection fosse una pratica tanto accessibile quanto pericolosa. Il ricercatore, ad agosto 2024, ha dimostrato come un’e-mail dannosa o un documento condiviso potrebbe spingere Microsoft Copilot a cercare nella posta in arrivo di un bersaglio e-mail sensibili e inviare i suoi segreti al potenziale aggressore. Di fatto, i chatbot possono essere definiti come “creduloni“, con gli sviluppatori che stanno facendo di tutto per renderli meno ingenui.

L’hack mostrato da Rehberger lunedì consiste nell’inserire falsi ricordi in Gemini Advanced, una versione premium del chatbot di Google.

In poche parole, viene chiesto all’AI di riassumere un documento, al cui interno sono presenti istruzioni nascoste che manipolano il chatbot. Nel riepilogo che ne consegue, viene chiesto a Gemini viene forzata l’apparizione di una richiesta per salvare dati utente specifici se il bersaglio risponde con determinate parole di attivazione (solitamente parole semplici, come “sì“, “no” o “certo“).

Una volta digitata la parola in questione, Google va a salvare le informazioni scelte dall’aggressore nella memoria a lungo termine, dove poi vengono facilmente recuperate. Come segnalato da Rehberger, questo tipo di attacco abbinato a tecniche di ingegneria sociale e phishing, può avere effetti devastanti.

Nonostante Google correrà sicuramente ai ripari, quando mostrato dal ricercatore dimostra ancora una volta quanto le enormi capacità dell’AI siano accompagnate anche da rischi che non andrebbero mai sottovalutati.

Scoperto prompt injection che corrompe la memoria a lungo termine di Gemini

Prompt injection e Gemini: l’AI è ancora “credulona”

Ti consigliamo anche

Assistente Google, addio alla modalità guida: altro passo verso Gemini

L'accusa pesantissima: i chatbot di Meta AI parlano di sesso con i minorenni

Test matematici USAMO 2025: tutti i modelli AI deludono le aspettative

Intel rilancia anche con i nuovi SoC Panther Lake e Nova Lake per i veicoli