Immaginate un fornitore di servizi cloud che dal 2013 ad oggi ha monitorato e annotato ogni giorno il comportamento degli hard disk utilizzati nei suoi data center. Quel provider è Backblaze che periodicamente pubblica un resoconto dettagliato, grazie ai dati via via raccolti, sul funzionamento di dischi fissi e SSD.
Una delle principali prerogative di Backblaze è che l’azienda sfrutta unità di memorizzazione dati progettate dai produttori per il mercato consumer e semi-professionale: quando un device si danneggia esso può essere sostituito agevolmente grazie anche ai costi che risultano davvero più contenuti se confrontati con le apparecchiature di storage di taglio enterprise.
Anche se hard disk e unità SSD sono sottoposte a carichi di lavoro innaturali per prodotti destinati al mercato consumer e prosumer, i report Backblaze offrono un interessante spaccato sul su Amazon.
Da oggi Backblaze mette a disposizione degli interessati il suo mastodontico database con le statistiche sul comportamento di hard disk e unità a stato solido. Si tratta di circa 346 milioni di record ai quali ne vengono aggiunti giornalmente oltre 200.000 nuovi.
Il dataset condiviso pubblicamente da Backblaze è di tipo “append-only“: l’azienda si limita cioè ad aggiungere solamente nuovi dati mentre non modifica o cancella i record memorizzati in precedenza. Il database offerto da Backblaze contiene le seguenti informazioni:
- date: la data in cui l’informazione sul comportamento dell’unità di memorizzazione è stata raccolta
- serial_number: il numero di serie univoco dell’unità
- model: il modello dell’unità di memorizzazione così come scelto dal produttore
- capacity_bytes: la capacità dell’unità in byte
- failure: viene mostrato l’indicatore 1 se il dato è stato raccolto l’ultimo giorno prima del rilevamento di un problema. L’indicatore 0 conferma che l’unità è funzionante
- Attributi SMART: per ogni unità Backblaze registra i parametri SMART: essi aiutano a riconoscere hard disk e SSD danneggiati o che stanno per rompersi. Ad oggi Backblaze tiene traccia di 87 attributi SMART: il numero dei parametri annotati è cresciuto nel corso degli anni.
La raccolta di dati firmata Backblaze è un ottimo esempio di come si possa interagire con i big data: l’azienda mette gratuitamente a disposizione degli interessati un suo bucket B2 ovvero un contenitore di dati pubblico col quale si può dialogare a distanza.
Come spiegano i tecnici di Backblaze nel post sui dieci anni di statistiche sugli hard disk e SSD, per rendere interrogabile un dataset così corposo è stato scelto l’utilizzo di Trino, un motore SQL distribuito che semplifica l’elaborazione e l’analisi dei big data.
Poiché fino ad oggi erano disponibili soltanto connettori Trino compatibili con Amazon S3, Backblaze ha usato come base il connettore Hive disponibile su GitHub per svilupparne uno per il suo servizio B2. Il contributo di Backblaze ha permesso di realizzare un connettore che potrà essere riutilizzato da chiunque per interfacciarsi utilizzando Trino con qualsivoglia bucket B2.
Per accedere ai dati storici di Backblaze basta seguire le istruzioni su GitHub: si può installare Trino utilizzando ad esempio un container Docker, configurare l’accesso al bucket B2 quindi eseguire le query SQL per estrarre tutti i dati di proprio interesse.
Una query del genere, per esempio, consente di conoscere quali sono i modelli di hard disk più utilizzati nell’infrastruttura di Backblaze:
È ovviamente possibile estrapolare qualunque tipo di statistica per comporre, ad esempio, un resoconto capace di fotografare il comportamento di tutti gli hard disk di uno specifico produttore nel corso degli anni.
Una delle immagini utilizzate per le miniature di questo articolo è tratta dal post di Backblaze.