Von Praveen Viraraghavan

03 März, 2025

KI

Neue Speicheranforderungen für die KI-Infrastruktur.

PraveenViraraghavan

KI-Speicherlösungen müssen mit der rasanten Datenentwicklung Schritt halten können. Innovationen wie Dual-Actuator-Festplatten, NVMe-basierte Speicher und energieeffiziente Lösungen formen die Zukunft der KI-Infrastruktur.

Inhaltsverzeichnis

Mit der fortschreitenden Entwicklung der künstlichen Intelligenz (KI) muss sich auch die Infrastruktur weiterentwickeln, damit sie den steigenden Anforderungen an Datenspeicherung und -verarbeitung gerecht werden kann. Im Lebenszyklus der KI-Infrastruktur spielt die Datenspeicherung eine entscheidende Rolle und Lösungen müssen aktuellen und zukünftigen KI-Herausforderungen standhalten können.

Die täglich generierte Datenmenge ist überwältigend. Laut einem Bericht von Kaleido Intelligence1 produzieren intelligente Städte täglich 143 Petabyte an Daten, und auch autonome Fahrzeuge generieren Terabytes (TB) an Daten. Der Bedarf an effizienten Lösungen zur Datenspeicherung ist daher dringender denn je. Hersteller von autonomen Fahrzeugen laden riesige Datenmengen zu Anbietern von Cloud-Diensten hoch, wo sie verarbeitet und zur Verbesserung von KI-Modellen verwendet werden. Der kontinuierliche Datenfluss erfordert robuste Speicherlösungen, mit denen sich sowohl das für KI-Anwendungen erforderliche Volumen als auch die Geschwindigkeit bewältigen lassen.

Leistung vs. Stromverbrauch.

Obwohl der Schwerpunkt auf moderne Technologien wie Grafikprozessoren (GPUs) liegt, bleiben Festplatten eine entscheidende Komponente der KI-Infrastruktur. Diese bieten die erforderliche Speicherkapazität für die riesigen Datensätze, die beim KI-Training und bei der Inferenz verwendet werden. GPUs übernehmen die Schwerstarbeit der Datenverarbeitung, während Festplatten die Daten speichern, die diese Prozesse speisen. Dank dieser symbiotischen Beziehung können KI-Systeme effizient arbeiten, ohne durch begrenzte Speicherkapazitäten eingeschränkt zu werden.

Bei der KI-Infrastruktur besteht eine der größten Herausforderungen darin, ein Gleichgewicht zwischen Leistung und Energieverbrauch zu finden. Je größer GPU-Cluster werden, desto mehr Leistung wird für ihren Betrieb benötigt. Bei großen Implementierungen, wie sie beispielsweise bei KI-Marktführern zum Einsatz kommen, sind Tausende von GPUs beteiligt, die alle erhebliche Mengen an Strom verbrauchen. Daher werden Speicherlösungen benötigt, die nicht nur eine hohe Leistung bieten, sondern auch einen effizienten Stromverbrauch aufweisen. Zur Veranschaulichung: Eine einzelne GPU verbraucht bis zu 700 Watt, und bei groß angelegten Einsätzen können bis zu 100.000 GPUs zum Einsatz kommen, was einen Strombedarf von 70 Megawatt ergibt. Diese Komponente entspricht der gesamten Stromversorgung eines großen Rechenzentrums. Speicherlösungen müssen daher so konzipiert sein, dass sie den Stromverbrauch minimieren und gleichzeitig die Leistung maximieren, wenn sie zusammen mit GPUs in die Lösung integriert werden sollen.

Die Bedeutung von Checkpoints.

Beim KI-Training spielen Checkpoints eine entscheidende Rolle, um bei Systemausfällen einen Verlust des Fortschritts zu verhindern. Diese Prüfpunkte speichern den Status des KI-Modells in regelmäßigen Abständen (z. B. alle paar Minuten), sodass der Trainingsprozess vom zuletzt gespeicherten Status aus fortgesetzt werden kann, anstatt von vorne zu beginnen. Besonders wichtig ist dies bei lang andauernden Trainingseinheiten, die sich über Wochen oder sogar Monate erstrecken können. Für effiziente Checkpoints sind schnelle Speicherlösungen erforderlich, die große Datenmengen schnell speichern und abrufen können.

Beispielsweise führen einige große Trainingsplattformen während des Trainings jede Minute Checkpoints durch, speichern Daten auf Solid-State-Laufwerken (SSDs) und übertragen sie dann auf Festplatten. Dieser Prozess stellt sicher, dass das Training selbst im Falle eines Fehlers mit minimalem Datenverlust fortgesetzt werden kann. Diese Checkpoints können sehr groß sein, wobei einige Modelle bis zu 12 TB Speicherplatz pro Checkpoint benötigen.

Festplatten sind aufgrund ihrer Skalierbarkeit, Kosteneffizienz, Energieeffizienz, Nachhaltigkeit und Langlebigkeit für die Nutzung von KI-Checkpoints unerlässlich.

Zukünftige Trends und Innovationen.

Mit Blick auf die Zukunft dürfte die Nachfrage nach KI-Speicher exponentiell steigen. Wie aus Daten von Bloomberg Intelligence, IDC, eMarketer und Statista2 hervorgeht, soll der KI-Speichermarkt bis 2032 ein Volumen von 92 Milliarden US-Dollar erreichen. Angetrieben wird dieses Wachstum durch die zunehmende Komplexität von KI-Modellen und den zunehmenden Einsatz von KI in verschiedenen Branchen. Damit diese Anforderungen erfüllt werden können, benötigen Speicherlösungen eine höhere Komplexität, höhere Kapazitäten, schnellere Geschwindigkeiten und eine bessere Energieeffizienz.

Derzeit werden mehrere technische Innovationen erforscht, um den Speicherbedarf der KI-Infrastruktur zu decken:

  • Zunahme der Flächendichte. Die kontinuierliche Weiterentwicklung von Festplatten durch die Innovation der Leseköpfe und Medien der Geräte ermöglicht eine größere Speicherkapazität bei gleicher Bauform. Mozaic-fähige Festplatten von Seagate sind der effizienteste Festplattenspeicher der Welt. Sie können die Anschaffungs- und Betriebskosten senken und gleichzeitig die Produktivität steigern. Mit der höheren Flächendichte von Mozaic können Kunden mehr Daten speichern, ohne mehr Stellfläche, Strom oder natürliche Ressourcen zu verbrauchen. Mit Mozaic 3+ können Kunden ihre Nachhaltigkeitsziele erreichen – eine der obersten Prioritäten für große Rechenzentren – und den CO2-Ausstoß pro Terabyte um 55 % senken3.
  • Dual-Aktuator-Festplatten. Diese Festplatten bieten eine höhere Leistung, da sie zwei Aktuatoren verwenden, um Daten gleichzeitig zu lesen und zu schreiben. So kann der Datendurchsatz erheblich verbessert werden, und die großen Datenmengen, die von KI-Anwendungen generiert werden, sind einfacher zu verarbeiten.
  • NVMe-basierte Festplatten. Die NVMe-Technologie (Non-volatile Memory Express) bietet im Vergleich zu herkömmlichen SATA-Schnittstellen (Serial Advanced Technology Attachment) oder SAS-Schnittstellen (Serial Attached SCSI [Small Computer System Interface]) einen schnelleren Zugriff auf Daten. Mit NVMe-basierten Festplatten erzielen Rechenzentren eine höhere Leistung und eine geringere Latenz, was für KI-Workloads von entscheidender Bedeutung ist.
  • Optische Verbindungen Angesichts steigender Datenübertragungsraten können herkömmliche Kupferverbindungen zu einem Engpass werden. Eine optische Verbindung bietet eine höhere Bandbreite und eine geringere Latenz und ermöglicht so einen schnelleren Datentransfer zwischen Speichergeräten und Verarbeitungseinheiten.
  • Stromsparende Speicherlösungen. Aufgrund des wachsenden Strombedarfs der KI-Infrastruktur müssen Speicherlösungen energieeffizienter werden. Dies umfasst die Entwicklung von Festplatten, die weniger Strom verbrauchen und gleichzeitig eine hohe Leistung bieten, ebenso wie die Erforschung neuer Kühltechnologien, um die bei großflächigen Einsätzen entstehende Wärme zu kontrollieren.

Entwicklung des KI-Speicherbedarfs.

Durch die exponentielle Entwicklung der Datenmengen und die zunehmende Komplexität von KI-Modellen steigt der Speicherbedarf für die KI-Infrastruktur rapide an. Es wird in Zukunft unerlässlich sein, Speicherlösungen zu entwickeln, die mit diesen Anforderungen Schritt halten können, sodass sich KI-Systeme weiterentwickeln sowie ihr Versprechen einlösen, ganze Branchen zu transformieren und die Lebensqualität zu verbessern.

 


 

  1. Serie über die Konnektivität von Mobilfunk und IoT: Smart Cities Opportunities & Forecasts, Kaleido Intelligence  2023, https://kaleidointelligence.com/smart-cities-2027/
  2. Generative AI to Become a $1,3 Billion Market by 2032, Research Finds, Bloomberg Intelligence, 2023, https://www.bloomberg.com/company/press/generative-ai-to-become-a-1-3-trillion-market-by-2032-research-finds/
  3. Mozaic 3+ Festplatte mit 30 TB im Vergleich zu einer herkömmlichen PMR-Festplatte mit 16 TB. Grauer Kohlenstoff umfasst die Emissionen, die während der Rohstoffgewinnung, der Herstellung/Montage des Produkts und des gesamten Materialtransports von der Gewinnung über die Fertigung und von der Fertigung bis zum Kunden entstehen.
Praveen Viraraghavan bio photo

Praveen Viraraghavan

Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.