AMD ha il suo modello generativo per l'IA: è basato su Llama

Anche AMD ha deciso di far sentire la sua voce nel segmento dell’intelligenza artificiale. Da produttore impegnato nella realizzazione di chip, la società guidata da Lisa Su ha presentato un modello generativo leggero che a sua volta poggia sulla famiglia Llama (Meta). L’obiettivo è chiaro: penetrare in segmenti di mercato non ancora monopolizzati da NVIDIA, offrendo alternative competitive e focalizzate sulle specifiche esigenze delle imprese.

AMD-135M: il modello generativo leggero pensato per le aziende

Il lancio di AMD-135M fa notizia perché è il primo LLM (Large Language Model) “di piccola scala”, appositamente progettato per coadiuvare implementazioni aziendali private, nelle quali le esigenze di elaborazione rapida e personalizzata dei dati siano una priorità.

Uno degli aspetti più innovativi del modello AMD-135M risiede nell’utilizzo della decodifica speculativa, una tecnica che consente di ottimizzare il processo di inferenza riducendo il tempo di elaborazione. La decodifica speculativa si basa su un “draft model” più piccolo che genera in parallelo diversi candidati per i token. Successivamente, questi token sono verificati e raffinati da un “target model” più complesso e accurato. Il vantaggio principale di questa tecnica è la capacità di generare più token in un singolo passaggio, accelerando il processo di risposta.

Il rovescio della medaglia è che questo approccio comporta comunque un aumento delle transazioni e, di conseguenza, un maggiore consumo energetico, un compromesso necessario per ottenere maggiore velocità.

Sebbene non ci siano conferme di un legame diretto con l’acquisizione di Silo AI – un accordo che deve ancora ottenere le necessarie approvazioni regolamentari – il lancio di AMD-135M segna un passaggio importante verso una maggiore presenza di AMD nel mondo dell’IA, con soluzioni costruite in-house e ottimizzate per il proprio hardware.

Le varianti del modello: AMD-Llama-135M e AMD-Llama-135M-code

Il nuovo modello di AMD è messo a disposizione degli interessati in due varianti principali: AMD-Llama-135M, progettato per attività generali e AMD-Llama-135M-code, specificamente ottimizzato per la scrittura e l’analisi di codice. Entrambe le versioni utilizzano la decodifica speculativa per aumentare le prestazioni durante le operazioni di inferenza, con risultati particolarmente positivi nei test interni condotti da AMD:

AMD-Llama-135M: addestrato su un vasto dataset composto da 670 miliardi di token, rappresenta una soluzione versatile per le attività di generazione linguistica. I tecnici della società di Sunnyvale hanno completato il processo di addestramento in sei giorni, utilizzando quattro nodi AMD Instinct MI250, che offrono una potente infrastruttura di calcolo parallelo.

AMD-Llama-135M-code: la seconda versione del modello risulta ulteriormente perfezionata con 20 miliardi di token aggiuntivi, focalizzati esclusivamente sul coding. L’addestramento ha richiesto circa quattro giorni, sempre con l’ausilio dei nodi AMD MI250. La capacità di “comprendere” e generare codice lo rende uno strumento prezioso per le aziende che operano nel settore dello sviluppo software e dell’automazione.

Le prospettive future: Instinct MI300X e oltre

AMD ha fatto intendere che le sue future GPU Instinct MI300X e MI325X potrebbero offrire miglioramenti prestazionali ancora più significativi. Soprattutto nell’addestramento dei modelli di intelligenza artificiale. Le ottimizzazioni che l’azienda sta già implementando nei suoi modelli di linguaggio indicano una chiara volontà di spingere ulteriormente i limiti dell’efficienza e delle capacità di elaborazione.

Le GPU MI300X rappresentano l’ultima evoluzione nella linea di acceleratori AMD, progettati per le applicazioni di intelligenza artificiale e il calcolo ad alte prestazioni (HPC). Entrambi i modelli sono costruiti sull’architettura CDNA 3, che offre notevoli miglioramenti in termini di prestazioni e capacità rispetto ai modelli precedenti.

La MI300X assicura fino a 980,6 TFLOPS in FP32, rispetto ai 47,9 TFLOPS della MI250, evidenziando un incremento significativo nelle capacità di calcolo. Nel caso della MI325X, pur non avendo a disposizione dati specifici, migliorerà ulteriormente le prestazioni della MI300X.

Inoltre, se MI250 dispone di soli 32 GB di memoria, MI300X porta la dotazione a 192 GB di memoria HBM3 mentre con MI325X si dovrebbe arrivare a quota 288 GB. La larghezza di banda della MI300X è di 5,3 TB/s, molto superiore rispetto a quella della MI250 (1,6 TB/s).