AMD spiega come eseguire DeepSeek-R1 su chip Ryzen AI e Radeon

Il concetto di "reasoning" nei modelli LLM ha trovato applicazione in prodotti come DeepSeek-R1, utilizzabili anche localmente su hardware AMD Ryzen AI e Radeon.

I cosiddetti reasoning LLM (Large Language Models) rappresentano da qualche tempo la nuova frontiera per le applicazioni che integrano funzionalità di intelligenza artificiale. Sebbene il termine “ragionamento” sia utilizzato con un’accezione molto diversa rispetto alle capacità di elaborazione dei concetti proprie del cervello umano, OpenAI è la prima ad aver abbracciato il nuovo approccio nel campo dell’AI. Almeno in un prodotto destinato all’utilizzo generalizzato. Prima ancora della consacrazione di DeepSeek come nuovo e agguerrito player nella scena internazionale, avevamo fatto riferimento alla possibilità di adoperare il modello di reasoning DeepSeek-R1 in locale con Ollama.

Un’azienda come AMD vuole adesso sottolineare come sia pienamente in partita, riuscendo a sostenere l’esecuzione dei modelli DeepSeek in locale, grazie ai suoi chip Ryzen AI e Radeon.

Come fare inferenza con DeepSeek-R1 su chip AMD Ryzen AI e Radeon

In un bell’intervento pubblicato nel blog ufficiale di AMD, la società guidata da Lisa Su fa riferimento alla semplicità con cui si può implementare il modello di reasoning DeepSeek-R1 sui processori Ryzen AI e sulle schede grafiche Radeon. Allo scopo, AMD prende come riferimento LM Studio, un’applicazione desktop multi-piattaforma progettata per facilitare l’uso di LLM direttamente sui computer degli utenti, senza la necessità di una connessione a Internet o di infrastrutture cloud.

Accanto ad Ollama, LM Studio è una delle applicazioni migliori per usare i modelli AI in locale, servendosi di una pratica interfaccia grafica.

Per portare in locale le abilità di DeepSeek-R1, è necessario innanzi tutto installare il driver Adrenalin 25.1.1 o versione successiva quindi installare LM Studio scaricandone la versione ottimizzata per i chip Ryzen AI.

A questo punto, dopo aver avviato LM Studio, si deve accedere alla scheda Discover e scegliere la versione distillata di DeepSeek-R1 ritenuta più adatta. Nel campo dell’AI, la distillazione dei modelli di intelligenza artificiale è un processo di compressione e ottimizzazione dei modelli di machine learning.

La distillazione: cos’è e a cosa serve

La distillazione dei modelli è una tecnica in cui un modello AI più grande e complesso (noto come teacher model) è usato per addestrare un modello più piccolo e leggero (student model), senza perdere troppa accuratezza. È così possibile ridurre le dimensioni e i requisiti computazionali del modello, rendendolo più efficiente per l’esecuzione su hardware meno potente, come CPU e GPU consumer.

modelli distillati sono contraddistinti da un minore consumo di memoria e potenza, generano i risultati più velocemente (inferenza più rapida), possono essere sfruttati su hardware meno potente senza perdere eccessiva qualità nelle risposte.

Nel caso dei modelli DeepSeek-R1 Distill, si tratta di versioni ottimizzate del modello originale DeepSeek R1, che mantengono un alto livello di capacità di ragionamento, ma con prestazioni più efficienti per essere eseguite su processori Ryzen AI e GPU Radeon.

AMD suggerisce il modello Qwen 1.5B come ottimo punto di partenza, soprattutto per via delle performance davvero notevoli. I modelli distillati di dimensioni più grandi offrono migliori abilità di ragionamento.

Quantizzazione, download e configurazione del modello

Servendosi sempre dell’interfaccia di LM Studio, AMD suggerisce di verificare che per il modello selezionato sia impostato il valore di quantizzazione Q4 K M.

Tale impostazioni migliora l’efficienza computazionale e riduce il consumo di memoria, senza compromettere eccessivamente la qualità delle risposte.

Nello specifico, Q4 indica che i pesi del modello sono quantizzati a 4 bit (invece dei classici 16 o 32 bit delle versioni full-precision). Così facendo, si riduce drasticamente l’uso della memoria e aumenta la velocità di esecuzione, a costo di una piccola perdita di precisione.

Cliccando su Download, si può scaricare il modello mentre nella scheda Chat di LM Studio è necessario scegliere Manually select parameters per poi spostare sul valore massimo l’impostazione GPU Offload Layers.

Con un clic su Model load si avvia l’istanza locale del modello e, infine, si può iniziare una conversazione verificando i risultati via via ottenuti.

Ti consigliamo anche

Link copiato negli appunti