Parte essenziale dell’impegno sul versante delle nuove soluzioni di intelligenza artificiale e sulla realizzazione di robot umanoidi, vi è il lancio di GPU ancora più potenti.
NVIDIA ha appena presentato l’architettura Blackwell, evoluzione della precedente Hopper annunciata nel 2022. Il suo nome è un omaggio al matematico e statistico, primo afroamericano ad essere inserito nella National Academy of Sciences Hall of Fame, David Harold Blackwell.
Come si presenta l’architettura NVIDIA Blackwell
I tecnici di NVIDIA si sono soffermati su 6 caratteristiche dell’architettura Blackwell indicate come fondamentali. Innanzi tutto, la nuova generazione di GPU sarà molto più potente.
La GPU H100, basata sull’architettura Hopper, è dotata di 80 miliardi di transistor prodotti con il processo costruttivo a 4 nm di TSMC. Tuttavia, la GPU Blackwell è equipaggiata con 208 miliardi di transistor, utilizzando una versione migliorata del medesimo processo. Collegando due die GPU tramite l’interfaccia di interconnessione ad alta velocità NV-HBI da 10 TB/s, si ottiene un’unica GPU dalle prestazioni ancora più elevate.
Il motore Transformer di seconda generazione ottimizza calcoli e modellizzazioni con abilità migliorate in termini di inferenza. Il tutto combinando l’uso della libreria NVIDIA TensorRT-LLM per i LLM (Large Lange Models), il framework NeMo e il supporto per lo scaling dell’architettura tensoriale.
L’ultima versione dell’interconnessione NVLink offre un throughput bidirezionale pari a 1,8 TB/s per GPU, garantendo una comunicazione ad alta velocità – senza soluzione di continuità -, con la possibilità di abbinare fino a 576 GPU per i LLM più estesi.
Le altre caratteristiche importanti delle GPU NVIDIA di ultima generazione
Il motore RAS (Reliability, Availability, Serviceability) dedicato agisce a livello di chip, aumenta la resilienza, massimizza il tempo di attività del sistema e riduce i costi operativi.
Gli ingegneri NVIDIA hanno anche introdotto funzionalità avanzate di “computazione confidenziale“: supportano nuovi protocolli crittografici a livello hardware per proteggere i dati sensibili e i modelli di IA da accessi non autorizzati. Secondo la società diretta da Jensen Huang, le prestazioni in termini di throughput non risentirebbero dell’aggiunta di queste misure di sicurezza.
Infine, il motore di decompressione dedicato supporta i formati di compressione più recenti come LZ4, Snappy e Deflate. Inoltre, la capacità di accedere alla grande memoria della CPU Grace con un throughput bidirezionale di 900 GB/s, accelera le prestazioni di qualsiasi tipo di query – anche le più complesse – assicurando migliori prestazioni per l’analisi dei dati e, in generale, per i data scientist.
La prima GPU basata su Blackwell è NVIDIA B200
Il nome della prima GPU basata sull’architettura Blackwell, B200, è trapelato a febbraio scorso per bocca del vice presidente di Dell, Jeff Clack. Bruciò le tappe svelando che NVIDIA stava sviluppando una GPU con un consumo energetico di 1000W.
Le piattaforme che utilizzano B200 includono il superchip GB200, che collega due B200 e una CPU Grace; GB200 NVL72 che accoppia ben 72 B200 e 36 Grace, prodotti come il sistema integrato di intelligenza artificiale DGX B200 e la scheda server HGX B200.
NVIDIA ha mostrato anche il sistema DGX GB200, che combina addirittura 36 unità GB200 e il DGX SuperPOD, un supercomputer IA di nuova generazione che, anch’esso, poggia il suo funzionamento sullo schema DGX GB200.
Il DGX SuperPOD è un supercomputer che il CEO Huang descrive come il “motore della rivoluzione industriale in ambito IA“. Combina infatti gli ultimi progressi nella computazione accelerata NVIDIA, nella rete e nel software per consentire a imprese, settori e interi Paesi di sviluppare e migliorare le proprie soluzioni di intelligenza artificiale. Basti pensare, d’altra parte, che l’architettura NVIDIA Quantum-2 InfiniBand consente di accoppiare decine di migliaia di chip GB200: a dimostrazione di che tipo di sistemi sia possibile realizzare.
L’interconnessione InfiniBand Quantum-X800, annunciata separatamente, fornisce fino a 1800 GB/s di larghezza di banda a ciascuna GPU nella piattaforma. Mentre con la tecnologia SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) di quarta generazione, NVIDIA ha raggiunto performance di 14,4 TeraFLOPS, 4 volte superiori rispetto alla generazione precedente.