KI-Daten fließen in einem endlosen Kreislauf.

Dieser positive Kreislauf ermöglicht die laufende Erstellung und Iteration von Modellen während ihrer Ausführung.

Die Endlosschleife der KI-Daten.

KI verwendet und erstellt Daten. Tatsächlich werden KI-Modelle immer besser, indem sie vertrauenswürdige Daten verwenden – sowohl Daten, die vom Modell selbst generiert wurden, als auch Daten, die aus neuen Datenquellen stammen. Diese Endlosschleife aus Datenproduktion und -nutzung sorgt für intelligentere Anwendungen und bessere Ergebnisse.

Dadurch ändert sich der Wert der Daten und die Art und Weise, wie wir sie nutzen, grundlegend. Die Speicherung von mehr Daten in dieser Endlosschleife sorgt für eine bessere KI.

Daten sind in jedem Schritt ein wesentlicher Bestandteil der KI.

Zusammen mit neu erfassten Datenquellen wird jede Antwort, jeder Datenpunkt oder jedes Artefakt, das die KI generiert, Teil des Inputs für die nächste Trainingsrunde, wodurch ein kontinuierlicher Kreislauf zur Verbesserung der ausgegebenen Daten entsteht. In großen Rechenzentren werden die sechs Phasen des KI-Datenkreislaufs durch eine Mischung aus Speicher- und Arbeitsspeichergeräten ermöglicht

1. DATEN BESCHAFFEN

Am Anfang steht das Definieren, Finden und Aufbereiten der Daten.

Der Datensatz kann alles Mögliche umfassen, von einer kleinen, strukturierten Datenbank bis hin zum Internet selbst. Netzwerkfestplatten bieten Rohdaten mit langfristiger Aufbewahrung und Datenschutz. Netzwerk-SSDs dienen als unmittelbar zugängliche Datenebene.

2. MODELLE TRAINIEREN

Als Nächstes lernt das Modell durch Training mit gespeicherten Daten.

Das Training erfolgt im Rahmen von Versuch und Irrtum, wobei ein Modell konvergiert und durch Kontrollpunkte abgesichert wird. Das Training erfordert einen sehr schnellen Datenzugriff. Diese rechenintensive Phase nutzt HBM, DRAM und lokale SSDs für das Lernen. Netzwerkfestplatten und SSDs speichern Kontrollpunkte, um das Trainieren des Modells zu schützen und zu optimieren.

3. INHALTE ERSTELLEN

Der Inferenzprozess verwendet das trainierte Modell, um Ausgabedaten zu erstellen.

Je nach Anwendung wird das Modell für Aufgaben wie Chat, Bildanalyse oder Videoerstellung verwendet. Die primären Speichereinheiten, die diese iterative Entwicklung ermöglichen, sind HBM, DRAM und lokale SSDs.

4. INHALTE SPEICHERN

Bei der Iteration entstehen neue, validierte Daten, die gespeichert werden müssen.

Diese Daten werden zur kontinuierlichen Optimierung, Qualitätssicherung und Compliance gespeichert. Festplatten speichern und schützen die replizierten Versionen der erstellten Inhalte. Netzwerk-SSDs bieten eine Datenebene mit entsprechender Geschwindigkeit.

5. DATEN SICHERN

Replizierte Datensätze werden über Regionen und Umgebungen hinweg aufbewahrt.

Die gespeicherten Daten sind die Grundlage einer zuverlässigen KI. Damit können Datenwissenschaftler sicherstellen, dass die Modelle wie erwartet funktionieren. Festplatten sind die wichtigsten Geräte für Daten, die langfristig gespeichert und geschützt werden müssen. Netzwerk-SSDs werden als Leistungsbrücke verwendet, um Festplatten mit der lokalen SSD-Ebene zu verbinden und den Datenverkehr in der Umgebung zu unterstützen.

6. DATEN WIEDERVERWENDEN

Quell-, Modell- und Inferenzdaten sind der Ausgangspunkt für die nächsten Anstrengungen.

Die Inhaltsergebnisse fließen wieder in das Modell ein, was dessen Genauigkeit verbessert und neue Modelle ermöglicht. Netzwerkfestplatten und -SSDs unterstützen die geografisch verteilte KI-Datenerstellung. Rohdatensätze und -ergebnisse werden zu Quellen für neue Workflows.

KI-Workloads erfordern ein breites Spektrum an Speicher.

Arbeitsspeicher- und Speichertechnologien wie DRAM, Festplatten und SSDs spielen im gesamten KI-Datenworkflow eine entscheidende Rolle. Jeder Schritt erfordert eine optimierte Kombination dieser Geräte, um die Leistungs- und Skalierbarkeitsanforderungen der jeweiligen Workload zu erfüllen.