X

Dettagli tecnici Impatto del carico di lavoro delle unità disco sul costo totale di proprietà

In un ambiente con richiesta di prestazioni di elaborazione e capacità di memorizzazione sempre maggiori, il costo totale di proprietà è diventato il fattore discriminante principale per quasi tutti gli operatori dei data center. Redatto da Andrei Khurshudov, PhD. Esperto di modellazione cloud e analisi dei dati di Seagate Technology.

Scarica versione in PDF

Introduzione
Ogni anno la quantità di dati digitali generati aumenta in modo esponenziale, con conseguente maggiore richiesta di spazio di memorizzazione. Nonostante la recente popolarità dei dispositivi con memoria a stato solido (SSD), la stragrande maggioranza dei dati digitali viene ancora memorizzata su supporti di registrazione magnetici, ossia unità disco (HDD), che sono i mattoni su cui si appoggiano quasi tutti i data center. Oggigiorno i data center di grandi dimensioni sono presenti in un'ampia varietà di settori, ad esempio sanitario, retail e manifatturiero, per supportare ricerche online, acquisti, social network e altre soluzioni offerte in campo IT.

Indipendentemente dal fatto che un data center sia costituito da un insieme di sistemi di memorizzazione di fascia alta con ridondanza dei dati hardware RAID o realizzato con componenti hardware di fascia bassa e ridondanza dei dati software (fornita da un file system globale distribuito), i guasti e la sostituzione delle unità risultano costosi e possono influire in modo significativo sul costo totale di proprietà dei data center. In base alle analisi di mercato si stima un costo tra 100 e 300 dollari per ogni incidente causato da un guasto hardware che richiede manutenzione, riparazioni, sostituzioni o interventi simili.1,2

In un ambiente con richiesta di prestazioni di elaborazione e capacità di memorizzazione sempre maggiori, il costo totale di proprietà è diventato il fattore discriminante principale per quasi tutti gli operatori dei data center. Il costo totale di proprietà in genere include tutti i costi relativi alla realizzazione e al funzionamento di un data center, ad esempio spese capitali e operative, spese per hardware e software e spese per amministrazione, manutenzione e riparazione del data center. L'affidabilità delle unità disco, unitamente all'affidabilità degli altri componenti hardware del data center, influisce notevolmente sulle spese operative di manutenzione del data center.

Contrariamente ad alcune opinioni, le unità disco sono tra i componenti hardware più affidabili dei data center. I server di elaborazione e memorizzazione contengono ad esempio molti altri componenti che possono comprometterne l'affidabilità prima delle unità disco. Le ventole di raffreddamento in genere sono caratterizzate da un valore MTBF nell'ordine delle centinaia di migliaia di ore. Gli alimentatori dei server sono caratterizzati da un valore MTBF di 400.000 ore. Questi componenti sono quindi meno affidabili di una tipica unità disco nearline con un valore MTBF di oltre un milione di ore.

Ovviamente in un data center (o all'interno di un tipico server) può esserci un numero di unità maggiore rispetto al numero di ventole o alimentatori. Un numero elevato di unità aumenta le probabilità che una di loro si guasti e debba essere sostituita.

Fortunatamente esistono molti fattori che possono aiutare gli operatori dei data center.

Seagate, in base alla sua esperienza, ha notato che l'affidabilità delle unità disco dipende molto dalle condizioni operative definite e controllate dall'operatore del data center. L'affidabilità di un'unità può risultare fino a cinque volte inferiore rispetto a un'altra unità praticamente identica quando utilizzata in condizioni ambientali difficili. L'operatore del data center può quindi modificare l'ambiente operativo per garantire una maggiore affidabilità a un costo operativo totale più basso.

Seagate produce diversi tipi di unità, ottimizzate per varie condizioni operative, ad esempio per sistemi desktop, nearline e ambienti critici. Seagate conosce quali caratteristiche promuovono una maggiore affidabilità e fornisce suggerimenti che garantiscono la migliore affidabilità possibile.

Le unità all'interno dei data center vengono utilizzate in molti modi diversi e sono sottoposte a stress differenti. I principali fattori di stress per le unità disco sono tempi di utilizzo, temperatura in condizioni operative e carico di lavoro degli utenti. Ognuno di questi parametri in genere dipende dall'architettura del data center (ad esempio topologia, design del server, capacità di memorizzazione complessiva del data center e suo utilizzo, virtualizzazione e bilanciamento dei carichi di lavoro) e dalle applicazioni degli utenti finali (ad esempio quantità totale dei dati trasferiti in entrambe le direzioni e frequenza di trasferimento dei dati). Ora esamineremo l'influenza sull'affidabilità dei tempi di utilizzo, della temperatura in condizioni operative e dei carichi di lavoro, indipendentemente.

Tempi di utilizzo
L'influenza dei tempi di utilizzo sull'affidabilità delle unità è facile da comprendere.

La semplice formula matematica riportata di seguito rappresenta come la probabilità complessiva di guasto di un componente dipenda dal tempo di utilizzo e dall'affidabilità del prodotto, espressa come intervallo medio tra guasti (MTBF). Con l'aumento del tempo di utilizzo, aumenta anche la probabilità di guasto.

Probabilità complessiva di guasto = 1−e−tempo/MTBF

Il fatto che, se il dispositivo viene utilizzato meno, la probabilità di guasto è inferiore è alquanto intuitivo.

Realisticamente, stimiamo che un'unità disco in ambiente desktop in media rimanga in funzione per 2400 ore all'anno, ossia 6,5 ore al giorno. Per gli ambienti nearline o critici assumiamo, invece, che le unità siano in uso tutto il tempo (24 ore al giorno), per 8760 ore di funzionamento all'anno. Assumiamo anche che le unità in ambienti nearline e critici vengano sottoposte a un maggiore stress nel tempo. Quando le unità disco vengono sviluppate e collaudate, i protocolli di progettazione e testing dipendono dalle condizioni operative previste per l'impiego futuro, tra cui tempi di utilizzo, temperatura e carico di lavoro.

Stress dovuto alla temperatura
Le temperature elevate hanno un effetto negativo sull'affidabilità di quasi tutti i dispositivi elettronici ed elettro-meccanici, incluse le unità disco. La percentuale di guasti in genere aumenta rapidamente con la temperatura, con una formula detta dipendenza Arrhenius. L'impatto della temperatura sull'affidabilità e sul valore MTBF è abbastanza nota e viene sempre tenuta in considerazione durante la progettazione e il testing delle unità. Come regola generale, mantenere le unità disco alla temperatura più bassa possibile, all'interno dell'intervallo indicato nelle specifiche del prodotto. Un tipico intervallo di temperatura in condizioni operative per le unità disco è da 5 °C a 60 °C, indipendentemente dal tipo di unità selezionata. Qualsiasi data center che cerca di aumentare l'affidabilità delle unità disco deve includere piani per un sistema di raffreddamento efficiente.

Stress dovuto al carico di lavoro
Comprendere come il carico di lavoro influisca sull'affidabilità è un po' più complesso.

Per definizione, la funzione primaria delle unità disco è salvare e recuperare dati, memorizzando centinaia di Gbit di dati in ogni centimetro quadrato di superficie. Le unità disco sono in grado di registrare e recuperare dati a velocità di trasferimento continuativo nell'ordine di almeno 200 MB/s.

Per raggiungere questi livelli elevati di densità di registrazione e velocità di throughput dei dati, i componenti magnetici di lettura e scrittura devono essere a pochi nanometri (1 nm = 0,001 μm) dai supporti che ruotano velocemente. Per ottenere questi risultati occorre una progettazione tecnica complessa, che richiede che le unità vengano progettate, collaudate e classificate per un ambiente di lavoro specifico, caratterizzato da determinati tempi di utilizzo e carichi di lavoro dei clienti, tra i tanti fattori.

Con il termine tecnico carico di lavoro si intende la quantità di stress a cui l'unità è sottoposta durante il normale funzionamento. Ad esempio, l'unità A potrebbe leggere e scrivere diversi GB di dati ogni giorno, mentre un'altra unità B, tecnicamente equivalente, potrebbe leggere e scrivere diverse centinaia di GB di dati ogni giorno. In questo caso l'unità B viene utilizzata in condizioni di lavoro molto più pesanti.
Per determinare quando il carico di lavoro è eccessivo, esaminiamo tre scenari tipici (unità A, B e C).

Esaminiamo l'unità disco Constellation ES.3 da 4 TB di Seagate. La velocità di trasferimento continuativo di questa unità è circa 175 MB/s. Assumiamo che tre di queste unità siano utilizzate in condizioni operative simili, e con lo stesso server. La prima unità (A) trasferisce un volume di dati costante di 5 MB/s (in media 158 TB all'anno), mentre la seconda (unità B) trasferisce 10 MB/s (in media 315 TB all'anno). La terza unità di questo esempio (C) trasferisce invece 100 MB/s, equivalenti a 3150 TB all'anno.

È facile vedere che in questi scenari l'unità B è sottoposta a un carico di lavoro doppio rispetto all'unità A e che l'unità C è sottoposta a un carico di lavoro venti volte superiore rispetto all'unità A.

Se la relazione tra carico di lavoro e percentuale di guasto fosse lineare, si potrebbe concludere ragionevolmente che la probabilità di guasto dell'unità B è doppia rispetto all'unità A e quella dell'unità C è pari a 20 volte. I dati raccolti da Seagate, però, suggeriscono che non sia corretto presumere una relazione lineare.

Dopo anni di ricerca e sperimentazioni, i tecnici di Seagate hanno stabilito gli effetti complessi dei carichi di lavoro sull'affidabilità delle unità e sono giunti alle seguenti conclusioni:

  • Ogni tipo di unità disco è in grado di tollerare senza problemi un certo carico di lavoro, che ne definisce la classe WRL, ossia il limite del livello di carico di lavoro medio.
  • Finché il carico di lavoro non supera questo livello, lo stress influisce minimamente sull'affidabilità e sulla probabilità di guasto del prodotto.
  • Quando la soglia di carico di lavoro viene superata, l'affidabilità del prodotto incomincia a diminuire.

È quindi molto importante determinare lo stress effettivo del carico di lavoro di un data center e scegliere le unità disco appropriate. Nella tabella 1 viene fornito un riepilogo dei suggerimenti di Seagate per la scelta delle unità più appropriate per i vari ambienti dei data center.

Tabella 1. Unità disco consigliate in base al carico di lavoro

Carico di lavoro Classe di prodotti consigliata Limite del livello di carico di lavoro (TB all'anno)
Leggero Nearline leggero <180
Pesante Nearline <550

Se le unità A, B e C sono tutte nearline, le unità A e B presenteranno in media la stessa affidabilità, in quanto entrambi i carichi di lavoro sono al di sotto del limite di 550 TB all'anno. L'unità C, invece, con un carico di lavoro di 3150 TB all'anno, supera abbondantemente il limite del livello di carico di lavoro consigliato per un'unità nearline e presenterà quindi un'alta probabilità di guasto.

Le informazioni in questa tabella consentono agli operatori dei data center di scegliere il tipo di unità disco giusto per il carico di lavoro. Attenendosi a questi suggerimenti si ottiene dalle unità disco la massima affidabilità possibile al costo totale di proprietà a lungo termine più basso.

Nella figura 1 è illustrato come le unità A e B rientrino entrambe nella zona di sicurezza e non presentino quindi nessun aumento della probabilità di guasto a causa del carico di lavoro. Dato che l'unità C, invece, viene utilizzata ben oltre i limiti del livello di carico di lavoro consigliato, l'affidabilità potrebbe risultare compromessa.

hdd-workload-tco-500x318.jpg

Conclusioni
Il costo totale di proprietà è uno dei fattori discriminanti principali per quasi tutti i data center.

L'affidabilità delle unità disco può avere un effetto negativo sul costo totale di proprietà se si utilizzano unità non adatte alle condizioni operative del data center. Quando scelgono le unità, gli operatori dei data center devono tenere in considerazione, oltre ai tempi di utilizzo e alle temperature, anche il carico di lavoro stimato e i suoi effetti sull'affidabilità.

Seagate offre chiare indicazioni per una scelta oculata delle unità disco in base all'ambiente di lavoro del data center. Per garantire l'affidabilità nel tempo delle unità disco e ridurre il costo totale di proprietà, le unità disco devono essere utilizzate a basse temperature, all'interno dell'intervallo specificato, e nel rispetto delle specifiche dei tempi di utilizzo e di carico di lavoro. Il rispetto di queste indicazioni garantisce la migliore affidabilità disponibile al prezzo più basso possibile, tenendo in considerazione i costi di sostituzione, manutenzione e testing delle unità disco.

Redatto da Andrei Khurshudov, PhD, esperto di modellazione cloud e analisi dei dati di Seagate

Risorse

  1. Data center come computer: introduzione alla progettazione di sistemi a livello di warehouse, Luiz André Barroso e Urs Hölzle, 2009
  2. Misurazione dell'affidabilità dell'hardware nel cloud computing, Kashi Venkatesh Vishwanath e Nachiappan Nagappan, SoCC’10, 10-11 giugno 2010, Indianapolis, Indiana, Stati Uniti.
  3. http://www.seagate.com/internal-hard-drives/enterprise-hard-drives/hdd/enterprise-capacity-3-5-hdd/

 

Tag:

Prodotti correlati
Enterprise Performance 10K HDD
Unità Enterprise Performance 10K HDD di Seagate

Server per applicazioni critiche e array di memorizzazione esterni. Modelli SED e FIPS.

enterprise-perf-15k-300gb-dynamic
Enterprise Performance 15K HDD

Unità da 2,5” per tower, rack e server blade. Opzioni SED, SED-FIPS e TurboBoost™.

Constellation 2 - Principale
Enterprise Capacity 2.5 HDD

Server blade e aziendali e sistemi di memorizzazione JBOD/RAID. Opzioni SED, ISE e FIPS.

Terascale HDD - Immagine dinamica
Terascale HDD di Seagate

Sistema di memorizzazione cloud NAS e DAS a basso consumo con funzione di cancellazione sicura immediata (ISE).