I mercati azionari occidentali hanno fatto un bel tonfo nei giorni scorsi, penalizzando soprattutto le realtà impegnate nelle soluzioni di intelligenza artificiale e, in generale, buona parte del comparto tecnologico. A far salire la febbre è stato l’annuncio del rilascio dei modelli più avanzati messi a punto da DeepSeek. L’AI cinese ha dimostrato di riuscire a comportarsi meglio rispetto ai modelli preesistenti ma, soprattutto, è riuscita ad ottenere questi risultati con investimenti molto contenuti se paragonati con quelli di OpenAI, Google, Anthropic e compagnia.
L’avvento dell’AI cinese DeepSeek è uno sprone a fare ancora meglio
Mentre, di primo acchito, qualcuno bollava DeepSeek come una delle tante soluzioni disponibili sul mercato, una “copia” di quello che già esiste, il debutto di DeepSeek-V3 come una “non notizia”, siamo stati tra i primi a intuire il carico di innovazione del quale è foriera questa realtà cinese.
DeepSeek rappresenta una delle innovazioni più significative nel panorama dell’intelligenza artificiale. L’azienda ha dimostrato capacità tecniche avanzate che non solo competono con i leader del settore, ma ridefiniscono anche il paradigma economico e tecnologico dell’AI.
I contenuti pertinenti, argomentati e accurati che DeepSeek riesce a produrre, hanno immediatamente impressionato. E colpisce il fatto che chiunque, anche gli utenti non paganti, possa servirsi del modello DeepSeek-R1 che integra abilità di reasoning (caratteristica che OpenAI fa pagare).
Le convincenti prestazioni hanno portato l’azienda cinese a conquistare il primo posto nelle classifiche delle app gratuite su Apple App Store e Google Play Store. Inoltre, il valore della società è vorticosamente cresciuto oltre gli 8 miliardi di dollari.
Nonostante le sfide imposte dalle restrizioni statunitensi sulle esportazioni di chip AI verso la Cina, DeepSeek è riuscita a superare le difficoltà ottenendo l’accesso a un cluster di calcolo avanzato, che le consente di fruire di risorse computazionali basate su oltre 50.000 GPU NVIDIA Hopper. Nulla rispetto alla batteria di GPU utilizzate dalle aziende concorrenti: circa 500.000 GPU NVIDIA H800 nel caso di OpenAI e Google.
DeepSeek-R1: un modello di ragionamento basato su RL
DeepSeek-R1 si basa sul potente modello DeepSeek-V3, un Mixture of Experts (MoE) da 671 miliardi di parametri che compete con giganti come GPT-4o e Sonnet 3.5. Nonostante la sua scala, è stato addestrato con una spesa relativamente contenuta di 5,5 milioni di dollari, grazie a tecniche di ottimizzazione avanzate, tra cui:
- Multi Token Prediction (MTP): migliora la capacità del modello di prevedere più token contemporaneamente, riducendo il costo computazionale.
- Multi-Head Latent Attention (MLA): ottimizza l’attenzione tra diversi livelli di rappresentazione.
- Ottimizzazione hardware intensiva: sfrutta strategie di parallelismo e accelerazione hardware per ridurre i costi.
La vera innovazione risiede tuttavia nel metodo di apprendimento. DeepSeek ha infatti introdotto due versioni distinte del modello:
DeepSeek-R1-Zero: un modello addestrato esclusivamente con reinforcement learning (RL), senza supervisione umana. Utilizza Group Relative Policy Optimization (GRPO), una tecnica che migliora l’efficienza dell’RL, premiando risposte logiche e ben strutturate. Il modello soffriva però di una scarsa chiarezza espositiva.
DeepSeek-R1: versione migliorata che ha subìto una fase di fine-tuning supervisionato su un set selezionato di esempi per migliorare la leggibilità degli output. Un successivo processo di raffinamento ha poi permesso di migliorare ancora il modello, usando una combinazione di RL e feedback umani.
Questo tipo di approccio ha permesso a DeepSeek-R1 di combinare due vantaggi: la capacità di ragionamento sviluppata tramite RL e l’elevata qualità espositiva garantita dalla supervisione umana.
I limiti dell’attuale DeepSeek-R1
I modelli DeepSeek sono aperti: ciò significa che chiunque può scaricarli e utilizzarli in locale o sul cloud, anche grazie all’ottimo Ollama. Basta fare riferimento al repository GitHub dell’azienda.
Nonostante l’eccellenza tecnica di DeepSeek-R1, tuttavia, alcuni aspetti chiave restano non documentati o non accessibili alla comunità:
- Dataset di addestramento: non sono disponibili informazioni dettagliate sulle modalità utilizzate per la raccolta dei dati.
- Codice di training: DeepSeek non ha condiviso le configurazioni e gli iperparametri utilizzati per l’addestramento.
- Scalabilità: mancano analisi dettagliate sul rapporto tra risorse computazionali, dimensione del modello e qualità del ragionamento.
Si tratta di lacune che impediscono alla comunità di riprodurre e migliorare il modello in modo indipendente.
Open-R1: ricostruire e superare DeepSeek-R1
Mentre il Garante Privacy si affretta a chiedere informazioni a DeepSeek sui dati trattati, vale la pena ricordare che diversamente rispetto a molti modelli AI proprietari, buona parte dell’impianto su cui poggia l’AI cinese è aperta.
È vero che la policy sulla privacy di DeepSeek risulta piuttosto “allegra”, per usare un eufemismo, ma è altrettanto vero che i modelli proposti dalla società possono essere scaricati e utilizzati in locale così come sul cloud, entro i confini europei, senza trasferire alcun dato in Cina.
Un’ulteriore dimostrazione del perché il debutto in grande stile di DeepSeek-V3 e DeepSeek-R1 sia una cosa positiva è il lancio del progetto Open-R1 da parte di HuggingFace.
Come spiegano i promotori dell’iniziativa, Open-R1 mira a ricostruire DeepSeek-R1 in modo trasparente e open source. L’obiettivo è rendere disponibili dati, pipeline e strategie di addestramento per la creazione di modelli di ragionamento avanzati. Il piano di sviluppo di Open-R1 prevede tre fasi principali:
- Replica del modello R1-Distill: estrazione dei dataset di reasoning di alta qualità da DeepSeek-R1.
- Replica della pipeline RL di R1-Zero: costruzione di dataset su larga scala per matematica, logica e programmazione; addestramento del modello senza supervisione.
- Multi-stage training: dimostrazione della fattibilità del passaggio da un modello base al raffinamento con RL in più fasi, ottenendo risultati paragonabili a DeepSeek-R1.
Lo schema individuato da HuggingFace non si limiterà solo ai dataset matematici, ma esplorerà anche altri campi come la programmazione e la medicina, in cui i modelli di ragionamento potrebbero avere un impatto significativo.
Democratizzare l’accesso ai modelli avanzati di ragionamento
DeepSeek ha fatto sobbalzare i vertici delle aziende occidentali impegnate nelle soluzioni AI dimostrando brillantemente che si può fare meglio, in tempi più brevi, usando meno risorse e riducendo contemporaneamente i costi.
Così, la nascita di progetti come Open-R1, sulla scia di quanto mostrato da DeepSeek, hanno il potenziale per democratizzare l’accesso ai modelli avanzati di ragionamento, offrendo alla comunità accademica e industriale gli strumenti per costruire AI più trasparenti, affidabili e performanti.
L’obiettivo è documentare i processi di addestramento, permettendo a chiunque di replicare e migliorare i modelli; ottimizzare le risorse sprecando potenza computazionale su esperimenti infruttuosi; applicare le tecniche di RL a nuovi settori, creando modelli specializzati in diverse discipline.
Sebbene alcuni elementi dei modelli non siano condivisi, il CEO di DeepSeek, Liang Wenfeng, ha dichiarato che l’approccio open source è fondamentale per attrarre talenti e promuovere un’innovazione tecnologica senza barriere. Secondo Wenfeng, “l’open source è una cultura, non una strategia commerciale“: per questo, la società non ha intenzione di passare a un modello chiuso, nonostante la concorrenza da parte di giganti come OpenAI, ribadendo che l’accumulo di know-how e il rafforzamento della cultura innovativa sono più importanti di ogni strategia commerciale immediata.
Nel 2023 fu chiesto a Sam Altman, CEO di OpenAI, se un’azienda con un budget di 10 milioni di dollari potesse costruire qualcosa di sostanziale nell’ambito dell’AI. La sua risposta: “non c’è speranza di competere con noi nelle attività di addestramento dei modelli”. DeepSeek c’è riuscita con 5,5 milioni.
Credit immagine in apertura: BlackJack3D