Nel 2017 Intel ha gettato le basi per una nuova architettura da utilizzare al fine dello sviluppo dei processori Xeon ad alte prestazioni. L’idea era quella di usare due die su un singolo package così raddoppiare numero di core e canali di memoria senza ricorrere a un sistema dual socket.
Durante l’evento Data-Centric Innovation Day svoltosi a San Francisco, Intel ha annunciato la disponibilità dei processori scalabili Xeon di seconda generazione, ottimizzati per le esigenze di elaborazione più impegnative, dall’edge al cloud, dall’intelligenza artificiale al 5G.
I nuovi processori Platinum Intel Xeon 9200 rappresentano la massima espressione delle evoluzioni tecnologiche promosse dalla società di Santa Clara.
La CPU più performante della nuova gamma, composta di 53 modelli, è lo Xeon Platinum 9282, formato da 56 core fisici (con supporto per il multithreading, quindi 112 core logici) e capace di accedere a 12 canali di memoria anziché ai classici 4 canali dei processori destinati al mercato consumer.
I Cascade Lake di seconda generazione supportano memorie DDR4 a 2933 MHz (sino a 1,5 TB), fino a 48 canali PCIe 3.0 e possono gestire fino a 4,5 TB di memoria non volatile (non soltanto per semplici finalità di storage). Ciò significa che è possibile usare fino a 4,5 TB di memoria Intel Optane con la possibilità di usarle come RAM, come moduli acceleratori e come storage addizionale (Optane DC).
Anziché dover rigenerare gigabyte o terabyte di informazioni, al riavvio della macchina il contenuto della memoria potrà restare intatto, pronto per essere immediatamente utilizzato.
L’aggiunta delle istruzioni VNNI (Vector Neural Network Instructions) ad AVX-512 permetterà, secondo quanto dichiarato dai tecnici Intel, di ottenere un miglioramento delle prestazioni pari al 440% durante le elaborazioni relative ad algoritmi di intelligenza artificiale (vengono citati i framework Caffe e ResNet50).
Le nuove caratteristiche integrate nei processori scalabili Xeon di seconda generazione comprendono anche Intel Deep Learning Boost per l’accelerazione dell’inferenza nelle attività di deep learning.