Datenspeicherung ist die Grundlage von Machine Learning und KI
03 Apr., 2025
Künstliche Intelligenz (KI) und Machine Learning (ML) haben transformative Durchbrüche ermöglicht, von der Vorhersage von Proteinstrukturen bis hin zur Sprachübersetzung in Echtzeit. Grundlage dieser Innovationen ist der unersättliche Bedarf an qualitativ hochwertigen Daten. KI-Modelle leben von großen Datensätzen. Ohne zuverlässigen und kostengünstigen Datenspeicher würden die Modelle – und die Erkenntnisse, die sie liefern – ihr Potenzial allerdings nicht ausschöpfen.
Datenspeicherlösungen sind für die KI-Entwicklung, was der Sauerstoff für den Menschen ist. Die Fähigkeit, Daten effizient zu speichern, abzurufen und zu verarbeiten, hängt davon ab, wie effektiv KI-Modelle trainiert und verfeinert werden. Mit der steigenden Nachfrage nach KI-gestützten Lösungen wächst jedoch auch die Herausforderung, den Lebenszyklus von KI-Daten zu verwalten – von der Erfassung über die Speicherung bis zur Verarbeitung –, und dabei die Kosten und die Komplexität im Griff zu behalten.
Die Datenwissenschaft hat sich von Tabellenkalkulationen und einfachen Analysen zu aussagekräftigen ML-gestützten Erkenntnissen entwickelt. Heute meldet das US-Arbeitsministerium mehr als 200.000 Data-Scientist-Stellen mit einem prognostizierten Zuwachs von 36 % in den nächsten zehn Jahren. Branchenexperten integrieren KI-Tools in ihre Workflows, auch ohne formelle Data-Science-Schulung. Sie verwenden No-Code-Plattformen, um Modelle zu erstellen und Daten schneller als je zuvor zu analysieren.
Rohdaten allein sind jedoch noch nicht nützlich. Bevor die Daten in KI-Modelle eingespeist werden können, müssen sie strukturiert, bereinigt und gelabelt werden – dieser Prozess wird oft als Data Wrangling bezeichnet. Open-Source-Tools wie Pandas helfen, große Datensätze in strukturierte Formate umzuwandeln, die von KI-Modellen verwendet werden können. Dieser Prozess erfordert jedoch eine schnelle, effiziente und lokale Datenspeicherung, damit Engpässe, die die Modellentwicklung verlangsamen, vermieden werden können.
Die schiere Menge an KI-Trainingsdaten stellt erhebliche logistische Herausforderungen dar. Bei der Speicherung und Verwaltung großer Datensätze geht es nicht nur um die Kapazität, sondern auch um Kosten, Compliance und Zugänglichkeit.
Zu den größten Herausforderungen bei der KI-Datenverwaltung zählen folgende Punkte:
Herkömmliche zentrale Speicheransätze werden durch geografisch verteilte Datenquellen beeinträchtigt. Immer mehr KI-Anwender setzen auf lokale Edge-Speicherlösungen , die bessere Kontrolle, niedrigere Kosten und geringere Latenz bieten.
Anstatt riesige Datensätze auf zentrale Cloud-Server zu übertragen, können Unternehmen KI-Daten näher am Ort ihrer Entstehung verarbeiten und speichern. Dieser oft als Edge-Computing bezeichnete Ansatz minimiert die Kosten für die Datenübertragung und verbessert gleichzeitig die Leistung.
Eine kosteneffiziente Lösung sind kleine hybride NAS-Systeme mit lokalem, leistungsstarkem Speicher für KI-Workloads. Im Gegensatz zu herkömmlichen NAS-Systemen bieten diese Systeme integrierte containerisierte KI-Tools wie Jupyter Notebooks, sodass Fachexperten und KI-Entwickler direkt im Speichersystem selbst zusammenarbeiten können. Da keine ständigen Datenübertragungen erforderlich sind, reduzieren diese NAS-Lösungen die Betriebskosten und beschleunigen gleichzeitig die KI-Entwicklung.
Durch die Verarbeitung von KI-Daten am Netzwerkrand haben Unternehmen außerdem mehr Kontrolle über ihre Datensätze. Die Hoheit über KI-Trainingsdaten gewährleistet die Einhaltung branchenspezifischer Vorschriften und reduziert Risiken im Zusammenhang mit der Speicherung durch Dritte. Dieser Ansatz gestaltet KI-Workflows effizienter, da die Speicherung der Daten in der Nähe der Orte stattfindet, an denen sie erfasst und analysiert werden.
Edge-Computing bietet mehrere Vorteile für die KI-Entwicklung:
Um zu prüfen, ob KI-Workloads auf lokalem Speicher ausgeführt werden können, haben wir einen NAS-Cluster mit drei Knoten konfiguriert und die Speicherleistung gemessen.
Wir haben zuerst die Leistung eines einzelnen Knotens gemessen, um eine Basis für den Durchsatz zu erhalten. Dieses System hat folgende Leistung erbracht: 200 MB/s pro 2,5-GE-Link für die Übertragung großer Datenmengen.
Als Nächstes analysierten wir, wie sich eine Replikation über mehrere Knoten auf die Leistung auswirkte. Zwar erhöhte die Datenreplikation den Netzwerkverkehr, hatte jedoch kaum Auswirkungen auf die Leseleistung – ein wesentlicher Vorteil für Workloads, die Datenkonsistenz über mehrere Knoten hinweg erfordern.
Netzwerkleistungstests zeigten, dass das Hinzufügen eines zweiten 2,5-GE-Links nur geringe Vorteile beim Schreiben brachte, während das 10-GE-Netzwerk in ausgewählten Fällen die Leistung verbesserte.
Zur Simulation eines KI-Workflows testeten wir eine reale Machine-Learning-Aufgabe mit dem NAS-System. Wir trainierten ein Modell zur Klassifizierung von Booten anhand eines Datensatzes von 500 gekennzeichneten Bildern. Feature Extraction und Modelltraining wurden lokal durchgeführt.
Nachdem wir die Bilder in einem Objektspeicher-Bucket mit Metadaten-Labels gespeichert hatten, verwendeten wir PyTorch Img2Vec, um Merkmale aus jedem Bild zu extrahieren, und trainierten dann eine Random-Forest-Klassifizierung. Das resultierende Modell erreichte in weniger als einer Minute eine Genauigkeit von 78 %.
Die wichtigsten Erkenntnisse dieses Tests:
Dieses Experiment hat gezeigt, dass lokaler NAS-Speicher als kostengünstiger Hub für KI-Daten dienen kann, der die Abhängigkeit von Cloud-Diensten verringert und die Zugänglichkeit und Leistung verbessert.
Abschließende Gedanken: KI-Speicher muss sich weiterentwickeln
Die Zukunft von KI ist auf effiziente, kostengünstige und skalierbare Datenspeicherung angewiesen. Angesichts wachsender Datenmengen müssen Unternehmen neue Lösungen für die Speicherung und Verwaltung von KI-Datensätzen finden.
Lokale NAS-Lösungen bieten eine praktische Alternative zu teurem Cloud-Speicher und bieten KI-Teams mehrere Vorteile:
Was für Menschen der Sauerstoff ist für die Innovation im Bereich der künstlichen Intelligenz der Datenspeicher. Wenn KI-fähiger Speicher zugänglicher, kosteneffizienter und leistungsfähiger ist, können Unternehmen die KI-gestützte Entwicklung beschleunigen.
Warum Daten das entscheidende Asset der KI-Wirtschaft sind