Incidente DeepSeek: esposti dati riservati

DeepSeek si è recentemente distinta nel panorama globale grazie allo sviluppo del modello DeepSeek-R1, un modello avanzato di reasoning che si posiziona come un’alternativa competitiva alle soluzioni già affermate come OpenAI o1. Grazie alla sua efficienza e al basso costo operativo, DeepSeek ha attirato su di sé grande attenzione da parte dell’industria tecnologica, degli sviluppatori, della comunità accademica e open source. Tuttavia, come evidenziano gli esperti di Wiz Research, la crescita vorticosa delle aziende AI potrebbe portare a una sottovalutazione degli aspetti legati alla sicurezza informatica.

DeepSeek ha inconsapevolmente esposto oltre un milione di righe contenenti informazioni riservate

Wiz Research ha voluto porre sotto la lente d’ingrandimento l’infrastruttura utilizzata da DeepSeek per erogare i suoi servizi. I ricercatori si sono ovviamente limitati alla parte pubblica, cominciando con la mappatura dei domini DeepSeek pubblicamente accessibili.

Il team ha identificato circa 30 sottodomini esposti su Internet. La maggior parte di questi erano “innocui”, ospitando interfacce di chatbot, pagine di stato e documentazione API.

Tuttavia, approfondendo l’analisi delle porte di rete aperte, Wiz ha individuato un set di porte non standard (8123 e 9000) associate ad alcuni indirizzi mnemonici come oauth2callback.deepseek.com e dev.deepseek.com.

Queste porte, adesso chiuse dopo le segnalazioni pervenute, permettevano l’accesso a un database ClickHouse esposto pubblicamente, senza alcun meccanismo di autenticazione. ClickHouse è un sistema di gestione database open source, sviluppato da Yandex e progettato per eseguire query analitiche ad alta velocità su grandi volumi di dati. È particolarmente utilizzato per l’elaborazione in tempo reale, la memorizzazione di log e l’analisi di big data grazie alla sua architettura ottimizzata per la compressione e il parallelismo.

Implicazioni della vulnerabilità

Accedendo all’interfaccia HTTP di ClickHouse e utilizzando semplici query SQL, i tecnici di Wiz hanno ottenuto con semplicità l’elenco di tutte le tabelle disponibili. Tra queste, la tabella log_stream si è rivelata particolarmente sensibile, contenendo informazioni come:

Timestamp: Registri di dati dal 6 gennaio 2025
Span Name: Riferimenti a endpoint API interni di DeepSeek
String Values: Dati in chiaro, inclusi storici delle chat, chiavi API, dettagli del backend e metadati operativi
Service: Identificazione dei servizi di DeepSeek che hanno generato i log
Source: Origine delle richieste di log, contenente directory di file, metadati dei chatbot e altre informazioni riservate

L’accesso non autenticato a questi dati avrebbe potuto consentire a un attore malevolo di recuperare informazioni riservate sugli utenti e operazioni interne, esfiltrare credenziali in chiaro e altri dati sensibili, eseguire query per accedere a file di sistema interni al server.

Sebbene il team di Wiz Research non abbia eseguito query intrusive per motivi etici, è evidente che la configurazione errata di questo database rappresentava un rischio critico per la sicurezza di DeepSeek e dei suoi utenti.

Lezioni apprese e riflessioni sull’industria dell’AI

L’accaduto mette in evidenza un problema diffuso nel settore dell’intelligenza artificiale: la corsa all’innovazione spesso supera la consapevolezza delle misure di sicurezza necessarie. Molti dei rischi più concreti per le applicazioni AI non derivano da minacce sofisticate, ma da esposizioni accidentali di infrastrutture critiche.

Mentre le discussioni sulla sicurezza dell’AI si concentrano spesso su minacce avanzate e ipotetiche, i problemi reali derivano da vulnerabilità di base come la mancata protezione di database e delle interfacce di gestione.

Per mitigare questi rischi, le aziende del settore sono quindi chiamate a implementare misure di sicurezza rigorose per proteggere i dati degli utenti; integrare la sicurezza nell’intero ciclo di sviluppo, dalla progettazione all’implementazione; seguire regolari controlli di sicurezza e test di penetrazione; assicurarsi che i database non siano esposti senza autenticazione.

Credit immagine in apertura: iStock.com – Orhan Turan