Jason Feist

Perspective

21 Mai, 2026

Cloud

Wie Cloud- und KI-Workloads den primären Speicher neu definiert haben

Jason Feist

Perspective

wie Cloud- und KI-Workloads den Primärspeicher neu definiert haben/wie Cloud- und KI-Workloads den Primärspeicher neu definiert haben.

Hier bei Seagate setzen sich meine Ingenieurteams und ich regelmäßig mit den weltweit größten Anbietern von Cloud- und KI-Infrastruktur zusammen.

Wir liefern ihnen nicht nur Exabytes an Festplatten mit hoher Kapazität, sondern arbeiten auch eng mit ihnen zusammen, um ihre Speicherarchitekturen mitzugestalten.

Durch diese Partnerschaften hatte ich die Möglichkeit, aus erster Hand mitzuerleben, wie Entscheidungen im Bereich Hyperscale-Speicherlösungen getroffen werden. Der gemeinsame Nenner ist klar: Wirtschaftlichkeit, Software-Orchestrierung und Hardware-Fähigkeiten müssen aufeinander abgestimmt sein, um Leistung, Effizienz und den Wert der Daten zu maximieren.

Diese Abstimmung ist umso wichtiger geworden, da KI-Workloads immer größere Datensätze, Zugriffshäufigkeiten, Kontextfenster, Parallelverarbeitung, Aufbewahrungszeiten und höhere Anforderungen an gemeinsam genutzte Speichersysteme mit sich bringen.

Diese Verschiebungen im Maßstab haben die Bedeutung von „Primärspeicher“ grundlegend verändert.

Historisch gesehen bezeichnete der Begriff Primärspeicher eng gekoppelte Block- oder Dateisysteme, die sich in unmittelbarer Nähe des Rechners befanden. In Cloud- und KI-Umgebungen wird der primäre Speicher jedoch zunehmend durch softwaredefinierte, global verteilte Architekturen definiert, die Objektspeicher als persistentes Aufzeichnungssystem behandeln, das riesige Datenmengen über verschiedene Workloads hinweg speichert und bereitstellt.

Um besser zu verstehen, wie diese Neudefinition zustande kam, wollen wir die Designprinzipien genauer betrachten, die ursprünglich die Unternehmensspeicherung geprägt haben.

Wie Skalierung das Speicherparadigma veränderte

Jahrzehntelang funktionierte das Ökosystem unter einem gemeinsamen Standard: der Portable Operating System Interface (POSIX). POSIX entstand in einer Ära mit stärker lokalisierter Infrastruktur und bot Entwicklern ein vorhersehbares Modell für die Interaktion mit Daten.

Es legte Wert auf hohe Lese-nach-Schreib-Konsistenz, synchrone Dateisperrung und hierarchische Verzeichnisstrukturen. Für einen einzelnen Rechner oder einen lokalen Cluster war es hochwirksam und ist auch heute noch für viele Unternehmens- und Anwendungsumgebungen von entscheidender Bedeutung.

Mit dem Aufkommen des Cloud-Modells änderten sich jedoch die maßgeblichen Abwägungen. Cloud-Systeme wurden für einen grundlegend anderen Maßstab, ein anderes Verteilungsmodell und eine andere Kostenstruktur entwickelt als die POSIX-basierten Systeme, für die sie ursprünglich konzipiert wurden.

In einer verteilten Umgebung kann die Implementierung im POSIX-Stil eine erhebliche Orchestrierung über die Knoten hinweg erfordern, um die Verzeichnissemantik, die Dateisperrung und die Aktualisierung direkt vor Ort zu gewährleisten.

Cloud-Plattformen benötigten eine enorme Skalierbarkeit – schließlich sollten sie Dutzende bis Hunderte von Exabyte unterstützen – und in diesem Umfeld führte der Koordinierungsaufwand eng gekoppelter Designs zu Latenzproblemen und setzte dem Wachstum praktische Grenzen.

Bei modernen KI-Workloads, die noch größere Datensätze, Checkpointing, Token-Verarbeitung, Inferenz und hochparallele Datenpipelines erfordern, haben sich diese Anforderungen nur noch verstärkt.

In der gesamten Branche – von Google Cloud Storage (GCS) und Colossus bis hin zu Microsoft Azure Blob, Amazon S3 und Meta's Tectonic – haben Cloud-Plattformen softwaredefinierte Architekturen eingeführt, die speziell für global verteilte Daten und Hyperscale-Workloads entwickelt wurden, und diese im Laufe der Zeit verfeinert, als sich Umfang und Anforderungen weiterentwickelten.

In diesem neuen Paradigma übernimmt die Software mehr Verantwortung für Orchestrierung, Ausfallsicherheit und Datenfluss, damit die zugrunde liegenden Speichermedien so effizient wie möglich genutzt werden können.

Festplatten bilden den Anker für Speicherkapazität im großen Maßstab

In Cloud-Architekturen wie den oben genannten sind Festplatten die Grundlage für die Speicherung von Daten in großem Umfang.

Dies spiegelt die anhaltende Ökonomie der Speicherkapazität und die Physik der hochdichten Aufzeichnung wider. Moderne Festplatten mit hoher Kapazität nutzen Technologien wie Shingled Magnetic Recording (SMR) und Heat-Assisted Magnetic Recording (HAMR), um die Speicherdichte kontinuierlich zu erhöhen und Speicherkapazitäten im Exabyte-Bereich zu ermöglichen.

In diesem Umfang dienen Festplattenflotten als zentrales Speichersystem und bieten Langlebigkeit, Kosteneffizienz und Speicherdichte, die alternative Speichertechnologien einfach nicht erreichen können.

Es hat seinen Grund, warum 87 % der Exabytes in großen Rechenzentren auf Festplatten gespeichert werden1!

Da Cloud-Infrastrukturen immer weiter wachsen und KI-Workloads immer größere Datenmengen verbrauchen, erzeugen, speichern und wiederverwenden, gewinnen diese Vorteile noch mehr an Bedeutung.

Diese Vorteile können jedoch nur dann voll ausgeschöpft werden, wenn die Softwarearchitektur so konzipiert ist, dass sie die Stärken von Festplatten mit hoher Kapazität optimal nutzt.

Traditionelle POSIX-Zugriffsmuster – insbesondere innerhalb eng gekoppelter verteilter Dateisystemmodelle, die fragmentierte, zufällige In-Place-Aktualisierungen betonen – sind bei extremen Größenordnungen nicht immer gut mit diesen Stärken vereinbar.

Moderne softwaredefinierte Cloud-Plattformen begegneten diesem Problem, indem sie ihre Speicherarchitekturen um Festplatten herum konzipierten. Dadurch können sie sequentielle Datenflüsse mit hohem Durchsatz priorisieren und gleichzeitig eine skalierbare Betriebswirtschaft unterstützen.

Im Fall von Amazon S3, einem Dienst, der 500 Billionen Objekte speichert und 200 Millionen Anfragen pro Sekunde bearbeitet—wurde in einer kürzlich gehaltenen Keynote auf der AWS re:Invent-Konferenz2 betont, dass das Geheimnis der Cloud-Speicherleistung darin besteht, Software zu schreiben, die die Leistungsfähigkeit der Festplatte optimiert – in der Präsentation als „technisches Wunderwerk“ bezeichnet.

Anstatt das Laufwerk zu zwingen, sich Softwareabstraktionen anzupassen, die für eine andere Ära entwickelt wurden, sind moderne Cloud-Architekturen so konzipiert, dass sie die Stärken moderner Festplatten mit hoher Speicherdichte ergänzen.

Wie Cloud-Architekturen die Festplatteneffizienz steigern

Dieses technische Design nahm verschiedene Formen an, spiegelt aber im Allgemeinen bei führenden Cloud-Plattformen vier Architekturprinzipien wider. Zusammen zeigen sie, wie Cloud-Speicher zunehmend softwaredefiniert wird, was die Verwaltung von Datenfluss, Metadaten, Ausfallsicherheit und Aufnahmeverhalten betrifft.

1. Objektunveränderlichkeit begünstigt sequentielle Datenflüsse

Dienste wie GCS und Amazon S3 sind so konzipiert, dass sie die Unveränderlichkeit von Objekten und versionierte Aktualisierungen unterstützen. Sobald Daten in einen Objektspeicher geschrieben wurden, werden Aktualisierungen typischerweise dadurch durchgeführt, dass eine neue Version des Objekts geschrieben wird, anstatt die bestehende Version direkt zu ändern.

Durch die Verringerung des Bedarfs an zufälligen, direkten Binärschreibvorgängen verlagern Cloud-Architekturen einen größeren Teil der Festplattenlast hin zu großen, sequenziellen Datenströmen. Das passt besser dazu, wie Hochleistungslaufwerke Durchsatz und Effizienz in großem Umfang gewährleisten. Dieser Vorteil gewinnt bei KI-Workloads noch an Bedeutung, da Checkpointing, Dataset-Verschiebung und parallele Pipelines einen anhaltenden Druck auf gemeinsam genutzte Speichersysteme ausüben können.

2. Metadaten werden zunehmend von separaten oder verteilten Steuerungsdiensten verwaltet.

In einer traditionellen POSIX-Umgebung verwalten Speichersysteme häufig sowohl Dateimetadaten als auch Dateinutzdaten auf eng miteinander verknüpfte Weise. Hyperscale-Cloud-Plattformen haben dies geändert, indem sie Metadatendienste von der Speicherkapazität trennten und einen Großteil der Nachverfolgung und Koordination in schnellere, skalierbarere Steuerungsebenen verlagerten, anstatt diese Last den Festplatten selbst zu überlassen.

Google Cloud Colossus verlagert einen Großteil dieser Arbeit in speicherresidente Dienste, während Meta mit Tectonic Metadaten – innerhalb eines verteilten Dateisystemmodells – in zustandslose Microservices aufteilt, die auf einem horizontal skalierbaren Key-Value-Speicher laufen. Das Ergebnis ist ein geringerer struktureller Aufwand für die zugrunde liegenden Festplatten und mehr Möglichkeiten für sie, dichte und effiziente Speicherkapazität in großem Umfang bereitzustellen.

3. Erasure Coding stärkt die verteilte Resilienz

Ein drittes Prinzip ist die Verwendung von Erasure Coding und breiter Datenverteilung, um groß angelegte Speichersysteme widerstandsfähiger und effizienter zu gestalten.

Cloud-Architekturen reduzieren diese Empfindlichkeit durch Erasure Coding und breite Datenverteilung. Durch die Verteilung von Objekten auf viele Festplatten können diese Systeme lokale Hotspots isolieren, die Datenbereitstellung auch bei kurzen Latenzspitzen aufrechterhalten und die Daten bei Bedarf wiederherstellen. Dadurch wird die Speicherschicht widerstandsfähiger und der Durchsatz unter gemischten Cloud- und KI-Workloads wird aufrechterhalten.

4. Der mehrstufige Datenpfad

Ein viertes Prinzip ist die Art und Weise, wie Daten vorbereitet werden, bevor sie die Speichermedien erreichen.

Um die Lücke zwischen unvorhersehbarem Anwendungsdatenverkehr und der strukturierten Umgebung, die mit Festplatten hoher Dichte am besten zurechtkommt, zu schließen, verwenden moderne Architekturen einen mehrstufigen Datenpfad, der Flash-Speicher oder Arbeitsspeicher zur Pufferung der Datenaufnahme und zur Optimierung der Datenplatzierung einbezieht.

Eine Flash-Schicht fängt variable Ankunftsraten von API-Datenverkehr und Anwendungsschreibvorgängen ab. Es bereitet eingehende Daten vor und organisiert sie, bevor sie auf Speichermedien übertragen werden, sodass Hintergrundprozesse sie in langen, sequenziellen Durchläufen auf Festplattenarrays schreiben können.

Bei KI-Workloads, wo Datenerfassung, Checkpointing und Datenverschiebung besonders sprunghaft erfolgen können, gewinnt diese Pufferfunktion noch mehr an Bedeutung, da sie dazu beiträgt, sowohl eine latenzarme Datenerfassung als auch eine effiziente Festplattennutzung zu gewährleisten.

Diagramm: Wie Cloud- und KI-Workloads den primären Speicher neu definiert haben

Abb. 1. Ein Vergleich von traditioneller POSIX-Speichersoftware und Cloud-nativer Speichersoftware hinsichtlich der Maximierung der Vorteile einer festplattenzentrierten Speicherarchitektur.

Ein neues Modell für Primärspeicher

Zusammengenommen haben diese architektonischen Veränderungen die Definition von Primärspeicherung grundlegend verändert. Historisch gesehen bezeichnete der Begriff „Primärspeicher“ oft teure, hochverfügbare Block- oder Dateisysteme, die eng mit dem Rechner verbunden waren. Objektspeicher wurden häufiger als nachrangiges Ziel für Archiv-, Sicherungs- oder Sekundärdaten betrachtet.

Heutzutage definieren viele Cloud-native Architekturen den primären Speicher weiter gefasst: zustandsloses Rechnen gepaart mit einem globalen Objektspeicher. Auf Plattformen wie S3, Azure und GCS aufgebaute Data Lakes dienen zunehmend als zentrales Datensystem für groß angelegte Analysen, Cloud-Anwendungen und KI-Workflows.

In diesem Modell wird der primäre Speicher zunehmend softwaredefiniert, wobei Objektdienste, Metadatenschichten, Flash-Pufferung und Festplatten mit hoher Kapazität als koordiniertes System zusammenarbeiten.

Compute-Instanzen werden oft als elastischer und zustandsloser betrachtet, indem sie Daten aus der Objektschicht abrufen, verarbeiten und die Ergebnisse wieder in dieselbe gemeinsam genutzte Umgebung schreiben.

Die Konvergenz von Objektspeicherung und Dateisemantik

Da Objektspeicher in den letzten zehn Jahren für Cloud-Architekturen und in jüngerer Zeit auch für KI-Workflows immer wichtiger geworden sind, hat sich ein weiterer wichtiger Trend herausgebildet: leistungsstarke, parallele Dateisysteme.

Systeme wie Lustre, Weka und VAST sind darauf ausgelegt, die Leistung bei eng gekoppelten Arbeitslasten zu maximieren und bieten häufig POSIX-konforme Schnittstellen zur Unterstützung von Checkpointing, Koordination und Datenzugriff mit hohem Durchsatz.

Gleichzeitig haben sich Objektspeicherplattformen weiterentwickelt – mit dem Ziel, globale Skalierbarkeit zu optimieren und gleichzeitig die Leistung zu steigern, um eine wachsende Anzahl von KI- und datenintensiven Workloads zu unterstützen.

In groß angelegten Cloud- und KI-Umgebungen konvergieren diese Ansätze. Hochleistungsfähige Dateisysteme werden häufig auf Objektspeicher-Backends aufgesetzt oder in diese integriert, wodurch die Leistung für den aktiven Arbeitssatz mit der Skalierbarkeit und Wirtschaftlichkeit des Objektspeichers als Hauptspeichersystem kombiniert wird.

Diese Konvergenz spiegelt einen umfassenderen architektonischen Wandel wider: Anstatt zwischen Datei und Objekt zu wählen, kombinieren moderne Systeme beides. Es bewahrt den Komfort von Ordnern, Namensräumen und dem gewohnten Dateiverhalten, ohne die Skalierungsvorteile der Objektspeicherung zu beeinträchtigen.

Auswirkungen für Entwickler von Cloud- und KI-Infrastrukturen

Zusammengenommen deuten diese Veränderungen auf eine weitergehende Schlussfolgerung hin: Cloud- und KI-Architekturen erforderten andere Software- und Systemkompromisse als die, für die POSIX-First-Modelle ursprünglich optimiert werden sollten.

Diese Zielkonflikte erhöhten die Bedeutung der Softwareentwicklung zur Optimierung der Nutzung der zugrunde liegenden Festplattenflotten, auf denen die Systeme basieren. In diesem Sinne haben Cloud- und KI-Workloads nicht nur die Speicherarchitektur verändert, sondern den primären Speicher selbst neu definiert.

Für Infrastrukturentwickler ist die Schlussfolgerung eindeutig: Die Entwicklung moderner Systeme erfordert, dass man sich von der Annahme löst, dass der primäre Speicher sauber auf einen lokalen Betriebssystem-Dateibaum abgebildet werden muss. Das bedeutet, Software und Zugriffsmodelle auszuwählen, die den wirtschaftlichen, physikalischen und arbeitslastbezogenen Realitäten von KI im großen Maßstab entsprechen.

Organisationen, denen dies gelingt, werden besser aufgestellt sein, um KI-Strategien effizient umzusetzen, mit höherer GPU-Auslastung, besserer Wirtschaftlichkeit der Inferenz und weniger Leistungsengpässen.

Erfahren Sie mehr über Festplatteninnovationen, die den primären Speicher für die weltweit größten Anbieter von KI- und Cloud-Infrastrukturen bilden.

Quellen

1. IDC Datasphere und IDC Storagesphere

2. AWS re:Invent 2025, Andy Warfield Keynote: S3 speichert über 500 Billionen Objekte, bearbeitet 200 Millionen Anfragen pro Sekunde und verarbeitet über 1 Billiarde Anfragen pro Jahr.

 

 

 

Black and white headshot photo of Jason Feist, Senior Vice President, Cloud Marketing, is shown.
Jason Feist

Senior Vice President, Cloud Marketing