A fine marzo 2022, Intel ha fatto il suo ingresso nel mercato delle GPU ad alte prestazioni con l’architettura Alchemist. A distanza di circa un triennio, la società di Santa Clara prova a compiere un deciso passo in avanti con Battlemage, nuova generazione progettata per migliorare le prestazioni e ottimizzare l’efficienza.
L’obiettivo non è quello di sfidare direttamente le schede grafiche di fascia alta NVIDIA e AMD. Il fine è invece quello di focalizzarsi in particolare sulla fascia media, che rappresenta la quota di mercato più ampia. La nuova Arc B580, proposta a 250 dollari con 12 GB di VRAM, sulla cara garantisce un vantaggio significativo rispetto alle rivali come la RTX 4060 e la RX 7600, entrambe limitate a 8 GB. In ogni caso, per avere successo, Battlemage deve migliorare l’efficienza e offrire prestazioni competitive in vari scenari di utilizzo. Può davvero riuscirci?
Intel Battlemage: architettura e struttura del sistema
La struttura complessiva di Battlemage ricalca quella di Alchemist. Il cuore dell’architettura è costituito dagli Xe Core, elementi fondamentali del parallelismo computazionale di Intel. Questi core sono raggruppati in Render Slice, ognuno dei quali include unità di rendering, un rasterizer e cache dedicate.
Il modello B580 poggia su cinque Render Slice rispetto agli otto della A770, per un totale di 2560 unità FP32, contro le 4096 di A770. La riduzione dell’unità di calcolo si accompagna a una memoria cache L2 da 18 MB, leggermente più ampia rispetto ai 16 MB della generazione precedente.
Anche il bus di memoria risulta ridimensionato: B580 utilizza un’interfaccia GDDR6 a 192 bit, con una velocità di 19 GT/s. Ciò equivale a una banda teorica di 456 GB/s, inferiore ai 560 GB/s della A770.
Un altro cambiamento significativo è il collegamento con il processore: mentre A770 sfruttava una connessione PCIe 4.0 x16, la nuova B580 è limitata a PCIe 4.0 x8.
Innovazioni Xe Core
Le modifiche più sostanziali che Intel ha introdotto con Battlemage, si concentrano proprio sugli Xe Core, che ora adottano una suddivisione più razionale con gli Xe Vector Engines (XVE).
Intel ha fuso le vecchie unità XVE di Alchemist in unità più ampie, raddoppiandone la larghezza, senza però alterare il throughput massimo di 128 operazioni FP32 per ciclo di clock.
Ogni Xe Core dispone di una cache delle istruzioni condivisa, che supera i 96 KB già presenti in Alchemist, per garantire una gestione efficiente del codice eseguito. Gli XVE possono sovrintendere fino a 8 thread contemporaneamente, sfruttando registri da 64 KB e con una gestione flessibile della memoria vettoriale.
Sul fronte del calcolo vettoriale, Battlemage elimina il supporto per SIMD8, mantenendo SIMD16 e SIMD32. L’ottimizzazione dell’esecuzione delle istruzioni vettoriali riduce il sovraccarico, contribuendo a migliorare l’efficienza.
SIMD (Single Instruction, Multiple Data) è una tecnica di parallelismo che consente di eseguire la stessa istruzione su più dati contemporaneamente. SIMD8, SIMD16 e SIMD32 indicano le dimensioni dei vettori su cui l’istruzione SIMD è applicata, con il numero che rappresenta il numero di dati elaborati simultaneamente.
Efficienza energetica e gestione delle risorse
Battlemage introduce diverse migliorie per ottimizzare il consumo di energia e la gestione delle risorse computazionali:
- Allocazione dinamica della potenza: la GPU distribuisce le operazioni tra le unità di calcolo in modo più bilanciato, massimizzando l’efficienza.
- Pipeline ottimizzate: i nuovi Xe Core migliorano la gestione delle pipeline per minimizzare il tempo di attesa da parte delle unità computazionali.
- Esecuzione simultanea: la gestione del dialogo tra unità ALU e XMX (dedicate alla moltiplicazione matriciale) è stata affinata per ridurre i colli di bottiglia.
Accesso alla memoria e cache
Tra le altre innovazioni maggiormente degne di nota quelle relative alla struttura della memoria di Battlemage, che si basa su un sistema gerarchico migliorato:
- Cache L1 e Shared Local Memory (SLM): la memoria locale condivisa (SLM) passa a 256 KB rispetto ai 192 KB di Alchemist, migliorando il caching dei dati e riducendo i tempi di accesso.
- Latenza ridotta: il tempo di accesso alla memoria globale è inferiore rispetto alla generazione precedente, grazie a ottimizzazioni nel percorso di accesso ai dati.
- Banda cache L2 migliorata: la cache L2 da 18 MB offre una banda teorica fino a 4,3 TB/s, risultando più efficiente nella gestione delle richieste di memoria rispetto alla A770.
Nel complesso, Battlemage offre miglioramenti significativi nella gestione della cache e delle operazioni di memoria, garantendo prestazioni più consistenti rispetto al passato.
Conclusioni
Con la nuova architettura Battlemage, Intel compie un passo avanti nell’evoluzione delle sue GPU, ottimizzando l’efficienza e migliorando la gestione delle risorse. Arc B580 si posiziona come una proposta competitiva nella fascia media, offrendo 12 GB di VRAM, prestazioni più prevedibili rispetto ad Alchemist e un’architettura più razionale.
Arc B580, pur essendo inferiore agli A770 in termini di specifiche teoriche, eccelle nelle prestazioni pratiche, mostrando una gestione più efficiente della memoria e delle operazioni matematiche.
Se Intel saprà affinare i driver e consolidare il supporto software, Battlemage potrebbe rappresentare un’opzione interessante per gli utenti alla ricerca di una GPU di fascia media con un buon rapporto prezzo/prestazioni.
Intel ha ancora strada da fare per raggiungere le prestazioni delle sue rivali nei segmenti più avanzati, ma Battlemage rappresenta un passo positivo sul percorso che guarda all’affermazione nel mercato delle GPU discrete. Un passo che potrebbe, in futuro, portare a una competitività crescente anche nel segmento delle schede di fascia alta.