Le unità a stato solido (SSD) stanno vengono sempre più utilizzate in ambito business e nei data center in particolare. Delle caratteristiche tecniche di questi dispositivi abbiamo parlato anche di recente nell’articolo SSD, come funzionano le tecnologie che li rendono più veloci.
Ma quali sono le principali differenze tra SSD consumer e unità adoperabili in ambito business?
Diciamo, innanzi tutto, che gli SSD sono oggi disponibili con vari fattori di forma e possono sfruttare diverse interfacce di comunicazione. Esistono ad esempio SSD SATA, SCSI (SAS) e PCIe (vedere Come verificare se il PC è compatibile PCIe NVMe).
La differenza tra SSD consumer e business si gioca essenzialmente sul piano performance, affidabilità e resistenza.
L’architettura multicanale e l’accesso in parallelo ai chip NAND permette di ottenere prestazioni eccellenti in fase di lettura/scrittura dei dati, sia con un approccio sequenziale, sia per le operazioni random 4K (lettura e scrittura di tanti file di piccole dimensioni).
Gli SSD progettati per il mercato business sono ottimizzati per offrire prestazioni al top già dopo il primo accesso all’unità, fanno un uso di porzioni più ampie dell’unità per attività di over provisioning (ne abbiamo parlato nell’articolo SSD, come funzionano le tecnologie che li rendono più veloci) e riducono al minimo le latenze.
Come qualunque altro supporto di memorizzazione, gli SSD hanno un ciclo di vita che nel corso del tempo è aumentato significativamente anche per ciò che riguarda le unità consumer, comprese quelle economiche che utilizzano memorie NAND di tipo TLC (triple-level cell): vedere l’articolo Hard disk o SSD, caratteristiche e differenze per comprendere le differenze tra le unità a stato solido che usano chip SLC, MLC, TLC e, addirittura, di recente, anche QLC.
Ciascun die che compone le memorie flash NAND utilizzate negli SSD viene verificata durante il processo produttivo e viene utilizzato il parametro BER (tasso approssimativo di errori dei bit NAND) per definire la frequenza con la quale tipicamente possono verificarsi errori nella memorizzazione dei dati sia nei casi in cui è previsto l’utilizzo di ECC (Error Correction Code), sia in quelli in cui il controller non effettua questo tipo di attività.
I meccanismi di correzione dell’errore ECC aiutano a lenire i problemi in fase di lettura e scrittura: le celle di memoria che evidenziano un comportamento anomalo vengono marcate come inaffidabili (vedere più avanti).
L’abilità del controller nella correzione degli errori viene espressa tecnicamente con la sigla UBER (Uncorrectable Bit Error Ratio): questo dato suggerisce quanti bit di errore persistono dopo l’intervento dei metodi di correzione dell’errore e si calcola dividendo il numero di errori per il numero complessivo di bit letti.
Le unità SSD di tipo business riescono a sopportare un numero decisamente più ampio di cicli di cicli di scrittura, sono contraddistinte da un valore UBER più contenuto e sono capaci di funzionare senza evidenziare problemi in condizioni ambientali più severe (ad esempio a temperature più elevate).
JEDEC, organismo di standardizzazione dei semiconduttori che conta tra i suoi membri almeno 300 soggetti, indica in questo interessante documento le caratteristiche che devono avere le unità SSD consumer e business.
È noto che temperature elevate danneggiano qualunque componente elettronico. Un SSD consumer deve poter funzionare senza manifestare problemi alla temperatura di 40 °C per 8 ore al giorno; garantire la conservazione dei dati (data retention) – senza alcuna alimentazione – per almeno un anno quando conservato a 30 °C; essere contraddistinto da un tasso UBER uguale o inferiore a 10-15.
Un SSD business deve poter lavorare senza problemi a 55 °C per 24 ore al giorno; garantire la conservazione dei dati quanto spento consecutivamente per 3 mesi seppur mantenuto a 40 °C; avere un valore UBER uguale o inferiore a 10-16.
Il valore di data retention si riferisce al caso peggiore ovvero quando l’SSD avesse raggiunto la soglia massima di cicli P/E (program/erase) dichiarata dal produttore prima della rimozione dell’alimentazione.
Per ciclo P/E s’intende la sequenza di eventi che prevede la scrittura di dati nella cella di memoria NAND, la loro rimozione e quindi una successiva riscrittura. Via a via che aumentano i cicli P/E cui è esposta un’unità SSD, più diminuisce il valore di data retention.
Come accennato in precedenza, comunque, un blocco di memoria ritenuto inaffidabile viene marcato come tale e grazie all’area di over provisioning è possibile recuperare blocchi che non presentano problemi utilizzandoli attivamente per la memorizzazione dei dati.
I requisiti JEDEC suggeriscono che su un SSD business solo un bit di errore non è recuperabile su un equivalente di 1.110 Terabyte di dati gestiti dall’unità mentre su un dispositivo consumer un bit di errore non è recuperabile su circa 110 Terabyte di dati processati.
Come spiegato nell’articolo SSD più affidabili, le conclusioni di uno studio durato 6 anni, uno studio realizzato da alcuni esperti di Google in collaborazione con un team di accademici ha dimostrato che ormai non è più tanto il numero di scritture a incidere sulla durata di un SSD. Nel caso degli SSD, il nemico più temibile per la corretta conservazione dei dati e, quindi, per la loro integrità è il tempo oltre che in taluni casi la temperatura ambientale.
Per evitare spiacevoli incidenti con la conseguente perdita di dati, è importante non lasciare gli SSD spenti per troppo tempo (soprattutto quelli non più recenti) e soprattutto non conservarli a temperature ambientali elevate.
Inutile dire che le temperature di esercizio elevate vanno comunque evitate perché incidono negativamente anche sulla velocità di trasferimento dati: gli esperti di Puget Systems hanno effettuato a suo tempo alcuni test usando un’unità SSD M.2 di Samsung (il 950 PRO).
Collegando una sola scheda grafica al sistema, si è registrato un decadimento delle performance dell’SSD nell’ordine del 40-70% mentre aumentando il calore dissipato con la connessione di due schede video, le prestazioni dell’SSD sono crollate del 55-76%.
Le performance dell’unità a stato solido hanno subìto il calo più marcato quando l’SSD era stato avvicinato allo slot utilizzato dalle schede grafiche.
Con un decadimento tipico del 42% significa, nel caso del 950 Pro, passare da una velocità di lettura di picco (sequenziale) di 2.500 MB/s a meno di 1.500 MB/s. Un aspetto quindi da non sottovalutare.
Alcuni produttori (ad esempio Western Digital) hanno iniziato a proporre unità SSD con dissipatore integrato: Western Digital presenta i nuovi SSD PCIe SN750 ad alte prestazioni.
Soprattutto se si stesse usando un SSD non più “di primo pelo” suggeriamo di controllare periodicamente i parametri SMART in modo da verificare temperatura di esercizio ed essere informati sull’eventualità di guasti imminenti.
Gli SSD di classe enterprise dispongono di tecnologie che permettono il recupero dei blocchi di dati corrotti attingendo ai dati memorizzati in altri die della memoria NAND (comportamento simile ai dischi in configurazione RAID). Inoltre viene fornito un livello di protezione end-to-end aggiuntivo che controlla costantemente l’integrità dei dati scambiati tra host e unità a stato solido appoggiandosi alla cache interna all’unità SSD.
Un’apposita circuiteria presente negli SSD enterprise sopperisce alle situazioni critiche che si generano a seguito di un’improvvisa mancanza di alimentazione: speciali condensatori al tantalio permettono di completare le operazioni di scrittura in corso prima che l’SSD si spenga.
La protezione contro le conseguenze di blackout improvvisi può essere implementata anche a livello firmware spostando frequentemente i dati tra cache e memoria NAND.
Abbiamo detto che un SSD consumer viene tipicamente utilizzato per 8 ore al giorno: il 20% del tempo sono in funzione, l’80% si trovano in modalità stand-by o si trovano in sospensione. Gli SSD enterprise sono invece di solito attivi 24 ore al giorno, 7 giorni su 7.
Il parametro TBW (Terabytes Written) è stato universalmente adottato per esprimere il quantitativo di dati che possono essere scritti su un’unità SSD prima che le memorie flash NAND da essa utilizzate cominciano a diventare inaffidabili e l’unità debba quindi essere sostituita.
Oltre al dato TBW, generalmente dichiarato da ogni singolo produttore, si utilizza anche il parametro MTBF (Mean Time Between Failure) per esprimere l’affidabilità dell’SSD in termini dei componenti hardware utilizzati. Gli SSD di classe enterprise garantiscono un valore MTBF pari o superiore a un milione di ore di lavoro.