Supercomputer Aurora da 2 ExaFLOPS: cos'è e come funziona

Intel e l’Argonne National Laboratory, uno dei più grandi e antichi laboratori nazionali di ricerca degli Stati Uniti, hanno annunciato di aver concluso la realizzazione di un nuovo supercomputer ultrapotente. Il supercomputer Aurora utilizza decine di migliaia di processori Intel Xeon Max Sapphire Rapids con moduli di memoria RAM HBM2E accanto a decine di migliaia di GPU Intel Data Center Max Ponte Vecchio. In questo modo, il sistema può offrire prestazioni superiori a 2 ExaFLOPS con precisione FP64.

Generazione ExaFLOPS

ExaFLOPS è un’unità di misura della potenza di calcolo dei supercomputer. In informatica il FLOP (FLoating point Operations Per Second) esprime il numero di operazioni in virgola mobile eseguite in un secondo. Il multiplo ExaFLOP rappresentava fino a qualche tempo fa una chimera: avere a disposizione un sistema da 2 ExaFLOPS significa che diventa possibile elaborare qualcosa come 2 * 10¹⁸ operazioni in virgola mobile al secondo, ovvero un 2 seguito da ben 18 zeri.

Raggiungere l'”obiettivo ExaFLOP” è di grande importanza nell’ambito dei supercomputer per diverse ragioni. Un sistema di “classe ExaFLOP” offre una potenza di calcolo senza precedenti. Ciò consente di affrontare problemi computazionali complessi e di dimensioni enormi, come modelli climatici, simulazioni molecolari, ricerche sulle energie rinnovabili, elaborazioni legate all’intelligenza artificiale avanzata e altro ancora. L’incremento delle prestazioni consente di eseguire simulazioni più accurate e di analizzare dati complessi in tempi molto più brevi.

Un aumento così significativo delle prestazioni dei supercomputer permette di fare progressi immensi in una vasta gamma di campi scientifici e tecnologici. L’analisi dei dati, la ricerca farmaceutica, la modellazione climatica, la ricerca sull’energia, la fisica delle particelle e molte altre discipline possono beneficiare di un maggiore potere di calcolo per risolvere problemi complessi e fare scoperte rivoluzionarie.

L’opportunità di effettuare simulazioni realistiche restituisce a tecnici, ingegneri e scienziati gli strumenti per elaborare modelli complessi, con un elevati numero di parametri. In output si possono così ottenere dati ancora più precisi e attendibili per migliorare la comprensione dei fenomeni e prendere decisioni sempre più attente e informate.

Le principali caratteristiche del supercomputer Aurora

Fisicamente assemblato da HPE, il supercomputer Aurora è composto da 166 rack con 64 blade per rack, per un totale di 10.624 blade. Un server blade è un tipo di server modulare che consente di inserire molteplici unità di elaborazione all’interno di un singolo rack. Ogni blade di Aurora è basato su due CPU Xeon Max con 64 GB di memoria HBM2E on-package e sei GPU Data Center Max Ponte Vecchio. Sia le CPU che le GPU utilizzano un sistema di raffreddamento a liquido personalizzato.

In totale, Aurora racchiude 21.248 CPU per uso generico con oltre 1,1 milioni di core ad alte prestazioni, 19,9 petabyte (PB) di memoria DDR5, 1,36 PB di memoria HBM2E collegata con le CPU e 63.744 GPU di elaborazione progettate per carichi di lavoro IA e HPC altamente paralleli con 8,16 PB di memoria HBM2E integrata. I server blade sono interconnessi utilizzando il collegamento HPE Slingshot progettato specificamente per i supercomputer.

Sul versante dello storage, Aurora poggia su di un array di 1.024 nodi di archiviazione costituito da dispositivi SSD. Nel complesso fornisce 220 TB di capacità e 31 TB/s di larghezza di banda totale, che sarà utile per gestire carichi di lavoro che coinvolgono enormi set di dati, come la ricerca sulla fusione nucleare, ingegneria scientifica, simulazioni fisiche, ricerca di cure, previsioni meteorologiche e altri compiti.

Installazione server blade nel supercomputer Aurora

Questo video YouTube riassume in una breve sequenza tutte le principali caratteristiche del supercomputer Aurora.

Aurora: al debutto le GPU della serie Max per i data center, per formare il più grande cluster al mondo

“Aurora è la prima implementazione della GPU della serie Max di Intel, il più grande sistema basato su CPU Xeon Max e il più grande cluster di GPU al mondo“, ha dichiarato Jeff McVeigh, vicepresidente aziendale di Intel e direttore generale del gruppo che si occupa di supercomputing.

Conclusa con successo l’installazione dei blade, il supercomputer Aurora deve a questo punto superare una serie di test finali. L’avvio ufficiale del sistema è quindi atteso per la fine del 2023. Entro quella data, quindi, Aurora dovrebbe entrare a pieno titolo nella classifica Top500 andando a occupare le primissime posizioni.

Rick Stevens, uno dei responsabili del progetto presso l’Argonne National Laboratory, ha fatto presente che nel periodo che ci separa da qui alla fine dell’anno, il supercomputer Aurora sarà utilizzato per addestrare alcuni modelli di intelligenza artificiale generativa open source che gli scienziati potranno utilizzare su larga scala. Aurora, con oltre 60.000 GPU Intel Max, un sistema I/O molto performante e una soluzione per lo storage dei dati interamente a stato solido, è descritto come l’ambiente perfetto per addestrare tali modelli.

Le immagini nell’articolo sono dell’Argonne National Laboratory.