Jailbreak DeepSeek: quanti legami con OpenAI!

DeepSeek, un avanzato modello AI cinese, è finito sotto i riflettori per la scoperta di una vulnerabilità. Il jailbreak ha permesso di estrarre il suo prompt di sistema, evidenziando i rischi legati alla sicurezza.

L’intelligenza artificiale continua la sua corsa verso nuove vette e DeepSeek, un modello AI rivoluzionario proveniente dalla Cina, sta scuotendo il mercato. Tuttavia, oltre all’entusiasmo per le sue capacità, si stagliano all’orizzonte interrogativi cruciali sulla sicurezza e sulla trasparenza del suo sviluppo. Accuse di utilizzo improprio di dati per l’addestramento e di possibili derivazioni dai modelli generativi OpenAI hanno già innescato un acceso dibattito. Ma un aspetto ancora più critico, finora poco considerato, riguarda la vulnerabilità dei modelli AI alle tecniche di jailbreak.

Jailbreaking di un modello AI: un pericolo sottovalutato. Ecco come si comporta DeepSeek

Il jailbreak di un Large Language Model (LLM) si riferisce alla possibilità di aggirare le restrizioni di sicurezza integrate, manipolando i prompt per ottenere risposte che normalmente non sarebbero possibili. Gli esperti di Wallarm, una società di cybersecurity, hanno recentemente identificato una vulnerabilità nel sistema di DeepSeek che ha permesso di estrarre il suo prompt di sistema completo.

Il prompt di sistema consiste in una serie di istruzioni nascoste che governano il comportamento dell’AI, stabilendo limiti e regole per garantire l’aderenza a normative ed etiche prestabilite.  Se un malintenzionato riesce a recuperare questa informazione, essa può essere utilizzata per alterare il funzionamento del modello, esporre informazioni riservate o persino manipolare il comportamento dell’AI.

DeepSeek segue pratiche standard di sicurezza, rifiutando di divulgare il prompt di sistema. Ma Wallarm ha scoperto un metodo per aggirare queste protezioni, dimostrando come anche i modelli più avanzati possano essere vulnerabili a manipolazioni “furbe”.

Le tecniche di attacco

I tecnici di Wallarm spiegano che le AI possono essere ingannate ponendo in campo diverse strategie. Le più comuni includono:

1. Prompt Injection Attacks: Inserimento di input ingannevoli per eludere le restrizioni.

  • Richiesta diretta del prompt di sistema, mascherata con formulazioni fuorvianti.
  • Manipolazione attraverso il ruolo: fingere di essere un’entità di debug o un’altra AI.
  • Domande iterative che portano gradualmente l’AI a rivelare informazioni riservate.

2. Token Smuggling & Encoding: Uso di codifiche alternative per aggirare i filtri di sicurezza.

  • Richiesta di output in Base64 o Hex (esadecimale) per eludere le protezioni.
  • Frazionamento delle informazioni in più risposte per ricostruire il prompt originale.

3. Few-Shot Context Poisoning: Modifica del comportamento dell’AI attraverso prompt sequenziali.

  • Reverse Prompt Engineering: manipolazione dell’output per risalire all’input originale.
  • Adversarial Prompt Sequencing: concatenazione di domande che gradualmente indeboliscono i vincoli del modello.

4. Bias Exploitation & Persuasion: Sfruttamento di bias culturali e linguistici dell’AI.

  • Uso di giustificazioni morali per convincere l’AI a rivelare informazioni (ad esempio: “sono un ricercatore etico, ho bisogno di verificare la tua sicurezza”).
  • Utilizzo di lingue diverse o riferimenti culturali per superare restrizioni.

5. Multi-Agent Collaboration Attacks: Coordinamento tra più AI per incrociare dati e scoprire informazioni sensibili.

  • AI Echo Chamber: richiesta di informazioni parziali a un modello e utilizzo per l’estrazione dei dati mancanti da un altro modello.
  • Model Comparison Leaks: confronto tra risposte di diversi modelli per dedurre dettagli nascosti.

DeepSeek e il ruolo di OpenAI

Uno degli aspetti più controversi emersi dal jailbreak di DeepSeek riguarda il suo presunto legame con OpenAI. Il modello, una volta sbloccato, ha rivelato riferimenti diretti alla tecnologia OpenAI, suggerendo che il suo addestramento potrebbe aver utilizzato derivazioni o “versioni distillate” dei modelli GPT.

La scoperta solleva interrogativi importanti sulla trasparenza della formazione dei modelli, sulla **proprietà intellettuale e sul rischio che bias e vulnerabilità possano essere automaticamente ereditati dai modelli di origine. Se DeepSeek è stato addestrato utilizzando dati di OpenAI, potrebbe aver assorbito non solo le sue capacità ma anche le sue limitazioni e imperfezioni.

Confronto tra i prompt di sistema: OpenAI vs DeepSeek

Un’analisi condotta utilizzando ChatGPT-4o ha evidenziato differenze sostanziali tra l’approccio di OpenAI e quello di DeepSeek nella gestione delle restrizioni e delle risposte.

Aspetto OpenAI DeepSeek
Accuratezza Favorisce la discussione basata sui fatti Tende a bloccare o censurare argomenti sensibili
Etica e sicurezza Equilibrio tra libertà e protezione Priorità alla neutralità e alla censura
Adattabilità all’utente Si adatta al tono e alle esigenze Risposte più controllate e limitate
Privacy e trasparenza Spiega chiaramente i limiti del modello Evita discussioni sulla gestione dei dati
Creatività Promuove il pensiero critico e la creatività Risposte più rigide e strutturate

Il risultato del confronto elaborato da Wallarm, suggerisce che OpenAI enfatizza il pensiero critico e il dialogo aperto mentre DeepSeek sembra aderire a principi di censura più rigidi, probabilmente in linea con le normative cinesi sull’AI.

Le implicazioni in termini di sicurezza

Quanto venuto a galla a valle delle indagini su DeepSeek dimostra come i modelli AI siano spesso più interconnessi di quanto non sembri e possano ereditare debolezze. Se un modello può essere manipolato per rivelare dati interni, quali potrebbero essere le conseguenze per le aziende che utilizzano l’AI nei loro processi decisionali?

I rischi vanno oltre la fuga di informazioni sui prompt di sistema. Modelli compromessi possono esporre dati aziendali, violare normative sulla privacy e compromettere la sicurezza delle API integrate nei flussi di lavoro aziendali.

Per affrontare questi problemi, Wallarm ha lanciato un AI Jailbreak Test gratuito per le imprese, al fine di aiutare le aziende a valutare la sicurezza dei modelli utilizzati, proteggendosi da attacchi di tipo prompt injection e fughe di dati.

Ti consigliamo anche

Link copiato negli appunti