Open

Tom Prohofsky

Perspective

03 Apr., 2025

KI

Datenspeicherung ist die Grundlage von Machine Learning und KI

Tom Prohofsky

Perspective

data-storage-is-the-oxygen-images-hero-1440x1080

Künstliche Intelligenz (KI) und Machine Learning (ML) haben transformative Durchbrüche ermöglicht, von der Vorhersage von Proteinstrukturen bis hin zur Sprachübersetzung in Echtzeit. Grundlage dieser Innovationen ist der unersättliche Bedarf an qualitativ hochwertigen Daten. KI-Modelle leben von großen Datensätzen. Ohne zuverlässigen und kostengünstigen Datenspeicher würden die Modelle – und die Erkenntnisse, die sie liefern – ihr Potenzial allerdings nicht ausschöpfen.

Datenspeicherlösungen sind für die KI-Entwicklung, was der Sauerstoff für den Menschen ist. Die Fähigkeit, Daten effizient zu speichern, abzurufen und zu verarbeiten, hängt davon ab, wie effektiv KI-Modelle trainiert und verfeinert werden. Mit der steigenden Nachfrage nach KI-gestützten Lösungen wächst jedoch auch die Herausforderung, den Lebenszyklus von KI-Daten zu verwalten – von der Erfassung über die Speicherung bis zur Verarbeitung –, und dabei die Kosten und die Komplexität im Griff zu behalten.

Die wachsende Nachfrage nach KI-fähigen Daten

Die Datenwissenschaft hat sich von Tabellenkalkulationen und einfachen Analysen zu aussagekräftigen ML-gestützten Erkenntnissen entwickelt. Heute meldet das US-Arbeitsministerium mehr als 200.000 Data-Scientist-Stellen mit einem prognostizierten Zuwachs von 36 % in den nächsten zehn Jahren. Branchenexperten integrieren KI-Tools in ihre Workflows, auch ohne formelle Data-Science-Schulung. Sie verwenden No-Code-Plattformen, um Modelle zu erstellen und Daten schneller als je zuvor zu analysieren.

Rohdaten allein sind jedoch noch nicht nützlich. Bevor die Daten in KI-Modelle eingespeist werden können, müssen sie strukturiert, bereinigt und gelabelt werden – dieser Prozess wird oft als Data Wrangling bezeichnet. Open-Source-Tools wie Pandas helfen, große Datensätze in strukturierte Formate umzuwandeln, die von KI-Modellen verwendet werden können. Dieser Prozess erfordert jedoch eine schnelle, effiziente und lokale Datenspeicherung, damit Engpässe, die die Modellentwicklung verlangsamen, vermieden werden können.

Die Herausforderung der Datenverwaltung mit KI

Die schiere Menge an KI-Trainingsdaten stellt erhebliche logistische Herausforderungen dar. Bei der Speicherung und Verwaltung großer Datensätze geht es nicht nur um die Kapazität, sondern auch um Kosten, Compliance und Zugänglichkeit.

Zu den größten Herausforderungen bei der KI-Datenverwaltung zählen folgende Punkte:

  • Datenhoheit und -sicherheit. Unternehmen müssen Bestimmungen zu geistigem Eigentum, Datenschutz und Rechtsprechung einhalten.
  • Cloud-Speicher ist nicht billig. In der Cloud gespeicherte KI-Datensätze können bis zu zehnmal teurer sein als mit lokalen NAS-Lösungen.
  • Engpässe bei der Datenübertragung. Die Übertragung großer Datensätze über großflächige Netzwerke (WAN) ist langsam und kostenintensiv und führt bei geografisch verteilten Teams zu Verzögerungen.

Herkömmliche zentrale Speicheransätze werden durch geografisch verteilte Datenquellen beeinträchtigt. Immer mehr KI-Anwender setzen auf lokale Edge-Speicherlösungen , die bessere Kontrolle, niedrigere Kosten und geringere Latenz bieten.

KI-Datenspeicherung am Netzwerkrand

Anstatt riesige Datensätze auf zentrale Cloud-Server zu übertragen, können Unternehmen KI-Daten näher am Ort ihrer Entstehung verarbeiten und speichern. Dieser oft als Edge-Computing bezeichnete Ansatz minimiert die Kosten für die Datenübertragung und verbessert gleichzeitig die Leistung.
Eine kosteneffiziente Lösung sind kleine hybride NAS-Systeme mit lokalem, leistungsstarkem Speicher für KI-Workloads. Im Gegensatz zu herkömmlichen NAS-Systemen bieten diese Systeme integrierte containerisierte KI-Tools wie Jupyter Notebooks, sodass Fachexperten und KI-Entwickler direkt im Speichersystem selbst zusammenarbeiten können. Da keine ständigen Datenübertragungen erforderlich sind, reduzieren diese NAS-Lösungen die Betriebskosten und beschleunigen gleichzeitig die KI-Entwicklung.
Durch die Verarbeitung von KI-Daten am Netzwerkrand haben Unternehmen außerdem mehr Kontrolle über ihre Datensätze. Die Hoheit über KI-Trainingsdaten gewährleistet die Einhaltung branchenspezifischer Vorschriften und reduziert Risiken im Zusammenhang mit der Speicherung durch Dritte. Dieser Ansatz gestaltet KI-Workflows effizienter, da die Speicherung der Daten in der Nähe der Orte stattfindet, an denen sie erfasst und analysiert werden.

Edge-Computing bietet mehrere Vorteile für die KI-Entwicklung:

  • Geringere Kosten. Die Kosten für Cloud-Speicher und Datenübertragung werden reduziert.
  • Schnellere KI-Entwicklung. Trainingsdaten werden für einen schnellen Zugriff lokal gespeichert.
  • Bessere Datenkontrolle. Datenhoheit und -konformität werden bewahrt, da sichergestellt wird, dass Daten intern gespeichert und verarbeitet werden.

KI-Edge-Lab: Systemarchitektur und -aufbau

Um zu prüfen, ob KI-Workloads auf lokalem Speicher ausgeführt werden können, haben wir einen NAS-Cluster mit drei Knoten konfiguriert und die Speicherleistung gemessen.

Systemkonfiguration:

  • Hardware:
  • Intel N5095 Prozessor (geringer Stromverbrauch)
  • Zwei Ethernet-Anschlüsse mit je 2,5 GE
  • 4 IronWolf® Pro-Festplatten mit je 24 TB (RAID5, 70 TB nutzbar pro Knoten)
  • Optionale SSDs und TPUs (Tensor Processing Units) zur Beschleunigung
  • Software:
  • Jupyter Notebook-Container für die Python-basierte KI-Entwicklung
  • NATS-Jetstream für fehlertolerante Nachrichtenübertragung, Schlüsselwertspeicherung und Objektspeicher
  • Datenreplikation mit mehreren Knoten für Redundanz und Ausfallsicherheit
data-storage-is-the-oxygen-images-figure-1-1440x900

Leistungstests: Evaluierung von Speicher und Netzwerk

Wir haben zuerst die Leistung eines einzelnen Knotens gemessen, um eine Basis für den Durchsatz zu erhalten. Dieses System hat folgende Leistung erbracht: 200 MB/s pro 2,5-GE-Link für die Übertragung großer Datenmengen.

data-storage-is-the-oxygen-images-figure-2-1440x900

Als Nächstes analysierten wir, wie sich eine Replikation über mehrere Knoten auf die Leistung auswirkte. Zwar erhöhte die Datenreplikation den Netzwerkverkehr, hatte jedoch kaum Auswirkungen auf die Leseleistung – ein wesentlicher Vorteil für Workloads, die Datenkonsistenz über mehrere Knoten hinweg erfordern.

data-storage-is-the-oxygen-images-figure-3-1440x900

Netzwerkleistungstests zeigten, dass das Hinzufügen eines zweiten 2,5-GE-Links nur geringe Vorteile beim Schreiben brachte, während das 10-GE-Netzwerk in ausgewählten Fällen die Leistung verbesserte.

data-storage-is-the-oxygen-images-figure-4-1440x900

KI-Training unter Realbedingungen am Netzwerkrand

Zur Simulation eines KI-Workflows testeten wir eine reale Machine-Learning-Aufgabe mit dem NAS-System. Wir trainierten ein Modell zur Klassifizierung von Booten anhand eines Datensatzes von 500 gekennzeichneten Bildern. Feature Extraction und Modelltraining wurden lokal durchgeführt.

Nachdem wir die Bilder in einem Objektspeicher-Bucket mit Metadaten-Labels gespeichert hatten, verwendeten wir PyTorch Img2Vec, um Merkmale aus jedem Bild zu extrahieren, und trainierten dann eine Random-Forest-Klassifizierung. Das resultierende Modell erreichte in weniger als einer Minute eine Genauigkeit von 78 %.

data-storage-is-the-oxygen-images-figure-5-1440x900

Die wichtigsten Erkenntnisse dieses Tests:

  • Die Feature Extraction nahm die meiste Zeit in Anspruch (81 %), ein Argument für den Bedarf für schnellen lokalen Speicher.
  • Das Training des KI-Modells war in unter einer Minute abgeschlossen, was die Effizienz lokaler NAS-Lösungen für KI-Workflows belegt.
  • Das Experiment konnte von Domänenexperten ohne formelle KI-Schulung durchgeführt werden. Das demonstriert die Umsetzbarkeit dieses Ansatzes.

Dieses Experiment hat gezeigt, dass lokaler NAS-Speicher als kostengünstiger Hub für KI-Daten dienen kann, der die Abhängigkeit von Cloud-Diensten verringert und die Zugänglichkeit und Leistung verbessert.

Abschließende Gedanken: KI-Speicher muss sich weiterentwickeln

Die Zukunft von KI ist auf effiziente, kostengünstige und skalierbare Datenspeicherung angewiesen. Angesichts wachsender Datenmengen müssen Unternehmen neue Lösungen für die Speicherung und Verwaltung von KI-Datensätzen finden.

Lokale NAS-Lösungen bieten eine praktische Alternative zu teurem Cloud-Speicher und bieten KI-Teams mehrere Vorteile:

  • Reduzierte Kosten bei leistungsstarkem Datenzugriff
  • Effizientere KI-Workflows, da die Daten näher am Ort der Verarbeitung gespeichert werden können
  • Bessere Compliance und mehr Datenhoheit durch die Kontrolle über den Speicherort von KI-Daten

Was für Menschen der Sauerstoff ist für die Innovation im Bereich der künstlichen Intelligenz der Datenspeicher. Wenn KI-fähiger Speicher zugänglicher, kosteneffizienter und leistungsfähiger ist, können Unternehmen die KI-gestützte Entwicklung beschleunigen.

Verwandte Themen:

Innovation Data Center