X

Tech. Erkenntnisse Wie sich der HDD-Workload auf die Gesamtbetriebskosten auswirkt

In einem Umfeld mit steigender Nachfrage nach Computing-Leistung und Speicherkapazität bedeuten die Gesamtbetriebskosten den wichtigsten Aspekt für beinahe jeden Betreiber eines Rechenzentrums. Von Andrei Khurshudov, PhD. Cloud-Modellierung und Datenanalyse, Seagate Technology.

PDF-Version herunterladen

Einführung
Die Menge jährlich erzeugter digitaler Daten wächst exponentiell und erhöht damit die Speichernachfrage. Trotz der in letzter Zeit immer beliebteren Solid-State-Speicher- (SSD-) Geräte wird der Großteil digitaler Daten immer noch auf vertikalen Aufzeichnungsmedien – insbesondere Festplatten (HDD) – gespeichert, die für praktisch jedes Rechenzentrum die Grundlage bilden. Zusätzlich gibt es jetzt Rechenzentren in ganz unterschiedlichen Branchen, z. B. Gesundheitswesen, Einzelhandel und Fertigung. Sie fördern Suche, Einkauf, soziale Netzwerke und andere von der IT-Branche angebotene Online-Lösungen.

Unabhängig davon, ob ein Rechenzentrum aus einer Reihe von High-End-Speichersystemen mit Hardware-RAID-Datenredundanz besteht oder einfachere Hardware mit Software-Datenredundanz (bereitgestellt durch ein global verteiltes Dateisystem) nutzt, Laufwerksausfälle und -austausch sind teuer und erhöhen die Gesamtbetriebskosten des Rechenzentrums. Eine Branchenanalyse zeigt, dass ein Hardwarefehler, eine Wartung, eine Reparatur, ein Austausch usw. pro Vorfall zwischen 100 und 300 US-Dollar kostet.1,2

In einem Umfeld mit steigender Nachfrage nach Computing-Leistung und Speicherkapazität bedeuten die Gesamtbetriebskosten den wichtigsten Aspekt für beinahe jeden Betreiber eines Rechenzentrums. Die Gesamtbetriebskosten umfassen in der Regel alle Kosten, die beim Aufbau und Betrieb eines Rechenzentrums anfallen, z. B. Kapital- und Betriebskosten, Hardware- und Softwarekosten sowie Administration, Wartung und Reparaturen. HDD-Zuverlässigkeit sowie die Zuverlässigkeit anderer Rechenzentrumshardware hat großen Einfluss auf die Betriebskosten im Zusammenhang mit der Rechenzentrumswartung.

Konträr zu einigen Beobachtungen zählen HDDs zu den zuverlässigsten Hardwarekomponenten eines Rechenzentrums. Speicher- und Computing-Server umfassen beispielsweise viele andere Komponenten, die weit eher als HDDs die Systemzuverlässigkeit begrenzen. Lüfter haben typischerweise einen MTBF-Wert in der Größenordnung von 100.000 Stunden. Die Server-Stromversorgung wird gewöhnlich mit einem MTBF von 400.000 Stunden bewertet. Diese Komponenten sind viel weniger zuverlässig als eine typische Nearline-HDD mit einer Bewertung von mehr als 1.000.000 MTBF-Stunden.

Natürlich könnte ein Rechenzentrum (oder ein typischer Server) mehr Festplatten als Lüfter oder Stromversorgungen enthalten. Eine größere Anzahl an Festplatten erhöht natürlich die Wahrscheinlichkeit, dass eine davon irgendwann ausfällt, was einen Austausch erforderlich macht.

Glücklicherweise gibt es mehrere Faktoren, die dem Betreiber des Rechenzentrums helfen könnten.

Erstens: Die Seagate-Erfahrung legt nahe, dass HDD-Zuverlässigkeit stark von den Betriebsbedingungen abhängt, die vom Betreiber des Rechenzentrums definiert und kontrolliert werden. Eine von zwei scheinbar identischen Festplatten könnte eine Verringerung der Zuverlässigkeit auf ein Fünftel erfahren, wenn sie in einer anspruchsvollen Betriebsumgebung eingesetzt wird. Damit erhält der Betreiber des Rechenzentrums die Möglichkeit, die Betriebsumgebung für höhere Zuverlässigkeit bei geringsten Gesamtbetriebskosten anzupassen.

Zweitens: Seagate fertigt verschiedene Festplattentypen, die unter unterschiedlichen Betriebsbedingungen hervorragende Leistung bieten und typisch für Desktop-, Nearline- und geschäftskritische Umgebungen sind. Seagate weiß, was für höhere Zuverlässigkeit wesentlich ist, und bietet eine Reihe von Empfehlungen, anhand deren die bestmögliche Zuverlässigkeit sichergestellt wird.

Es bestehen viele Unterschiede dabei, wie die Festplatten in einem Rechenzentrum genutzt (und belastet) werden. Die essenziellen Parameter der HDD-Belastung sind Nutzungsdauer, Betriebstemperatur und Benutzer-Workload. Jeder dieser Parameter stellt typischerweise eine starke Funktion der Rechenzentrumsarchitektur (einschließlich Topologie, Serverdesign, Gesamtspeicherkapazität des Rechenzentrums und dessen Nutzung, Virtualisierung, Lastausgleich usw.) und die Anwendungen der Endbenutzer (Gesamtmenge an bidirektional übertragene Daten, Datenraten über die Zeit usw.). Analysieren wir einmal die unabhängige Bedeutung von Nutzungsdauer, Betriebstemperatur und Benutzer-Workload auf die Zuverlässigkeit.

Nutzungsdauer
Die Auswirkung der Nutzungsdauer auf die HDD-Zuverlässigkeit lässt sich ziemlich leicht verstehen.

Mathematisch teilt uns die gezeigte einfache Gleichung mit, wie die Nutzungsdauer und die Zuverlässigkeit des Produkts, ausgedrückt in Mean Time Between Failures (MTBF), sich zu einer kumulierten Wahrscheinlichkeit des Komponentenausfalls kombinieren. Wenn die Nutzungsdauer steigt, steigt auch die kumulierte Ausfallwahrscheinlichkeit.

Kumulierte Ausfallwahrscheinlichkeit (Rate) = 1−e−time/MTBF

Intuitiv bedeutet das: Je weniger das Gerät eingeschaltet und genutzt wird, desto geringer ist die Wahrscheinlichkeit seines Ausfalls.

Realistisch gesehen erwarten wir, dass die Nutzungsdauer für HDDs in der Desktop-Umgebung durchschnittlich etwa 2.400 Einschaltstunden/Jahr mit etwa 6,5 Stunden/Tag beträgt. Für die Nearline- oder geschäftskritischen Umgebungen erwarten wir, dass die Festplatte 100 % der Zeit (24 Stunden/Tag), also 8760 Einschaltstunden/Jahr, genutzt wird. Es ist eindeutig vorauszusehen, dass Nearline- und geschäftskritische Festplatten unter der Belastung einer viel höheren Nutzungsdauer betrieben werden. Daher werden bei der Entwicklung und beim Test von HDDs deren Design- und Testprotokolle gemäß ihren voraussichtlichen Betriebsbedingungen, einschließlich Zeit, Temperatur und Workload, ausgewählt.

Temperaturbelastung
Hohe Temperatur wirkt sich auch negativ auf beinahe alle elektronischen und elektromechanischen Geräte einschließlich HDDs aus. Die Ausfallrate steigt typischerweise gemäß der sogenannten Arrhenius-Abhängigkeit rapide mit der Temperatur. Die Auswirkung der Temperatur auf Zuverlässigkeit und MTBF ist verhältnismäßig gut bekannt und wird immer beim Festplattendesign und Testverfahren berücksichtigt. Als Faustregel werden HDDs so kühl wie möglich, aber innerhalb des für das Produkt angegebenen Bereichs gehalten. Ein typischer Bereich der Betriebstemperatur für HDDs liegt unabhängig vom gewählten Festplattentyp zwischen 5 °C und 60 °C. Jeder Rechenzentrumsplan für höhere HDD-Zuverlässigkeit sollte Bestrebungen für effiziente Kühlung beinhalten.

Workload-Belastung
Der Einfluss der Workload auf die Zuverlässigkeit ist etwas schwerer verständlich.

Per Definition ist die primäre Funktion von HDDs das Speichern und Abrufen von Daten, wobei Hunderte von Gbits an Daten auf jedem Quadratzoll an Speicheroberfläche aufbewahrt werden. Sie können Daten bei anhaltenden Datenraten in der Größenordnung von 200 MB/s oder mehr aufzeichnen und abrufen.

Um diese hohe Aufzeichnungsdichte und einen hohen Datendurchsatz zu erreichen, werden magnetische Lese- und Schreibkomponenten physisch mehrere Nanometer (1 nm = 0,001 μm) von schnell rotierenden Medien gehalten. Das ist eine komplexe technische Designaufgabe, die erfordert, dass Festplatten für eine bestimmte Arbeitsumgebung entwickelt, getestet und klassifiziert werden, die unter anderem durch den Bereich der Nutzungsdauer und der Benutzer-Workload charakterisiert wird.

Workload ist ein technischer Begriff, mit dem die Größe der Arbeitsbelastung definiert wird, der die Festplatte beim Normalbetrieb ausgesetzt ist. Beispielsweise könnte Festplatte A täglich mehrere GB an Daten lesen und schreiben, während Festplatte B täglich mehrere hundert GB liest und schreibt. In diesem Fall würden wir sagen, das Festplatte B unter viel höherer Workload-Belastung arbeitet.
Um eine Vorstellung zu bekommen, wie viel Workload zu viel ist, betrachten wir drei typische Szenarien (Festplatten A, B und C):

Betrachten wir eine Seagate Constellation ES.3 HDD mit 4 TB. Diese Festplatte ist zu einer anhaltenden Datenübertragungsrate von 175 MB/s fähig. Stellen wir uns drei dieser Festplatten vor, die alle unter ähnlichen Bedingungen arbeiten (und mit demselben Server). Die erste Festplatte (Festplatte A) überträgt stetig 5 MB/s (oder durchschnittlich 158 TB/Jahr), während die zweite (Festplatte B) 10 MB/s (durchschnittlich 315 TB/Jahr) überträgt. Die dritte Festplatte schließlich (Festplatte C) überträgt in diesem Beispiel 100 MB/s (durchschnittlich 3.150 TB/Jahr).

Aus den obigen Szenarien ist einfach zu erkennen, dass Festplatte B einer 2× höheren Workload-Belastung ausgesetzt ist als Festplatte A und dass Festplatte C eine 20× höhere Workload-Belastung als Festplatte A hat.

Unter Annahme einer linearen Abhängigkeit würden die nächsten vernünftigen Schlussfolgerungen annehmen, dass Festplatte B eine 2× höhere Ausfallrate als Festplatte A hat und Festplatte C eine 20× höhere Ausfallrate als Festplatte A. Seagate-Daten legen jedoch nahe, dass die Annahme einer linearen Skalierung der Ausfallrate mit Workload falsch ist.

Jahre an Forschung und Experimenten ermöglichten Technikern von Seagate, die komplexen Effekte von Workload auf Festplattenzuverlässigkeit zu verstehen und die folgenden Schlüsse zu ziehen:

  • Jeder HDD-Typ hat eine sichere Workload-Schwelle, die jetzt als das Limit für die Workload-Rate (WRL) definiert wird.
  • Solange die Workload das WRL nicht überschreitet, hat die Workload-Belastung sehr wenig bis gar keinen Einfluss auf die Zuverlässigkeit und die Ausfallrate dieses Produkts.
  • Wird das WRL überschritten, beginnt die Zuverlässigkeit dieses Produkts nachzulassen.

Daher ist es äußerst wichtig, die Workload-Belastung eines bestimmten Rechenzentrums zu verstehen und HDDs entsprechend auszuwählen. Tabelle 1 bietet eine Zusammenfassung von Seagate-Empfehlungen für die Auswahl der am besten geeigneten Festplatten für unterschiedliche Rechenzentrumsumgebungen.

Tabelle 1. HDD-Empfehlungen nach Workload

Workload Empfohlene Produktklasse Limit für die Workload-Rate, TB/Jahr
Leicht Nearline, leicht <180
Schwer Nearline <550

Angenommen Festplatte A, B und C sind alle Nearline-Festplatten, würden wir erwarten, dass Festplatte A und B durchschnittlich ähnlich zuverlässig sind (beide Workloads liegen unterhalb dem WRL von 550 TB/Jahr). Festplatte C mit ihrer Workload von 3.150 TB/Jahr wird hingegen das empfohlene WRL für eine Nearline-Festplatte überschreiten und ist einem höheren Ausfallrisiko ausgesetzt.

Anhand der Tabelle können Betreiber von Rechenzentren den passenden HDD-Typ für die richtige Workload wählen. Die Berücksichtigung der Empfehlungen sollte die größtmögliche Zuverlässigkeit von verwendeten HDDs und geringere langfristige Gesamtbetriebskosten sicherstellen.

Abbildung 1 zeigt, dass Festplatte A und B derselben sicheren Zone angehören und keine Ausfallbeschleunigung aufgrund der Workload-Beiträge aufweisen. Auf der anderen Seite arbeitet Festplatte C gut außerhalb der empfohlenen WRL und könnte ein Nachlassen der Zuverlässigkeit zeigen.

hdd-workload-tco-500x318.jpg

Fazit
Gesamtbetriebskosten stellen einen der wichtigsten Aspekte für beinahe alle Rechenzentrumseinsätze dar.

HDD-Zuverlässigkeit kann die Gesamtbetriebskosten negativ beeinflussen, wenn verwendete Festplatten nicht korrekt mit den Betriebsbedingungen des Rechenzentrums abgestimmt sind. Neben Nutzungsdauer und Temperatur sollten Betreiber bei der Auswahl von Festplatten unbedingt die erwartete Workload und deren Einfluss auf die Zuverlässigkeit berücksichtigen.

Seagate bietet klare Richtlinien für die korrekte Auswahl von HDDs für eine beliebige Workload-Umgebung eines Rechenzentrums. HDDs so kühl wie möglich innerhalb des angegebenen Temperaturbereichs und innerhalb ihrer Nutzungsdauer und Workload-Spezifikationen zu betreiben, sind notwendige Bedingungen für langfristige Festplattenzuverlässigkeit und verbesserte Gesamtbetriebskosten. Das Befolgen dieser Richtlinien sollte die bestmögliche Festplattenzuverlässigkeit und die geringstmöglichen Kosten für HDD-Austausch, -Wartung und -Test sicherstellen.

Von: Andrei Khurshudov, PhD Cloud-Modellierung und Datenanalyse, Seagate

Ressourcen

  1. Das Rechenzentrum als ein Computer: An Introduction to the Design of Warehouse-Scale Machines, Luiz André Barroso und Urs Hölzle, 2009
  2. Characterizing Cloud Computing Hardware Reliability, Kashi Venkatesh Vishwanath and Nachiappan Nagappan, SoCC’10, 10.-11. Juni 2010, Indianapolis, Indiana, USA.
  3. http://www.seagate.com/internal-hard-drives/enterprise-hard-drives/hdd/enterprise-capacity-3-5-hdd/

 

Markierung:

Ähnliche Produkte
Enterprise Performance 10K HDD
Seagate Enterprise Performance 10K HDD

Geschäftskritische Server und externe Speicher-Arrays mit optionaler Selbstverschlüsselung und Zertifizierung gemäß FIPS

enterprise-perf-15k-300gb-dynamic
Enterprise Performance 15K HDD

2,5-Zoll-Festplatten für Tower-, Rack- und Blade-Server. Optional mit Selbstverschlüsselung, Zertifizierung gemäß FIPS und TurboBoost™.

Constellation 2 – Hauptansicht
Enterprise Capacity 2.5 HDD

Unternehmensserver, Bladeserver und JBOD/RAID-Speichersysteme. Optional mit Selbstverschlüsselung, ISE und Zertifizierung gemäß FIPS

Terascale HDD dynamisch
Terascale HDD von Seagate

Cloud-Speicher mit geringem Stromverbrauch, NAS und DAS mit Instant Secure Erase (ISE).