KI treibt ein beispielloses Datenwachstum voran.

In dem Maße wie die Modelle weiterentwickelt werden und KI allgegenwärtig wird, wird die Erstellung von Daten exponentiell ansteigen.

Kreativität und Innovation werden mit KI explosionsartig zunehmen.

Generative KI läutet eine neue Ära ein, in der Rich-Media-Inhalte in fast allen Bereichen des täglichen Lebens Einzug halten, von personalisiertem Gaming über medizinische Bildgebung bis hin zu Content-Produktion und darüber hinaus.

Die KI-Anwendungen, die es den Benutzern ermöglichen, Inhalte zu erstellen, zu analysieren und weiterzuentwickeln, werden immer leichter zugänglich und entfesseln ein KI-gesteuertes Datenwachstum. Und das ist erst der Anfang. Menschen und Maschinen werden Daten schneller als je zuvor erstellen, da innovative Anwendungsfälle zunehmend an Bedeutung gewinnen.

KI vervielfacht das Datenwachstum.

KI war schon immer ein Konsument von Daten. Jetzt erstellt KI auch eine große Menge an Daten.

In nur 1,5 Jahren hat die KI 15 Milliarden Bilder erstellt.¹ Bis 2028 wird die Erstellung von Bildern und Videos mit KI-Modellen um das 167-fache ansteigen.² Letztendlich führt das KI-Zeitalter zu einem Wendepunkt beim Datenwachstum, der durch drei wesentliche Faktoren bedingt wird: reichhaltigere Inhalte, mehr Replikation und längere Speicherung.

Reichhaltigere Inhalte.

Das transformative Potenzial von KI liegt in multimodalen Modellen, die Rich-Media konsumieren und produzieren.

Mehr Replikation.

KI-Daten werden unzählige Male kopiert, während Modelle trainiert werden und Ergebnisse erzeugen.

Längere Aufbewahrung.

Die Aufbewahrung von Daten fördert die Entwicklung von KI und schafft Transparenz.

Reichhaltigere Inhalte.

Das transformative Potenzial von KI liegt in multimodalen Modellen, die Rich-Media konsumieren und produzieren.

The smart chatbots and search summaries we use today are mere baby steps in AI's growth. The real transformative potential lies in multimodal AI models that consume and produce rich media.

Komplexere Eingaben – wie Bilder, Audio, Video und 3D-Animation – erzeugen reichhaltigere Ausgaben, die stärkere, intuitivere Nutzererfahrungen ermöglichen. Umfang und Fähigkeiten multimodaler KI-Anwendungen weiten sich aus, sodass Menschen und Unternehmen in einem noch nie dagewesenen Tempo kreativ sein können.

Künftige Rich-Media-KI wird sich auf alle Branchen auswirken.
  • Hochauflösende 3D-Grafiken für Gaming
  • Ultra HD-Videos für virtuelle Sets beim Filmdreh, komplett mit animierten Statisten
  • 3D-CAD-Generatoren und Physiksimulatoren für Architektur, Maschinenbau, Konstruktion und Fertigung
  • Medizinische KI-Assistenten in der Radiologie, Onkologie und Chirurgie
  • Molekülsynthese in der Medikamentenforschung und -erprobung
  • Hyperpersonalisierte Werbung, Spiele und Online-Erlebnisse
     
Alle diese Rich-Media-Inhalte werden zur Verbesserung der KI-Modelle der nächsten Generation verwendet.

In dieser neuen Welt, in der wir stundenlange Inhalte, Tausende von Bildern und Terabytes von Daten erstellen können, werden drei Dinge passieren. Immer mehr Menschen werden KI nutzen, um immer datenintensivere Inhalte zu erstellen. KI wird alle diese Daten verwenden, um die nächste Generation von Modellen zu trainieren. Und die Menge an Daten, die die Welt erzeugt und speichert, wird explosionsartig anwachsen.

Mehr Replikation.

KI-Daten werden unzählige Male kopiert, während Modelle trainiert werden und Ergebnisse erzeugen.

Enabling successful AI models and applications requires more data replication. Whether to ensure model quality through checkpointing, distribute applications geographically, iterate outputs, or modify them into multiple formats, copying data is integral to AI as models are dispersed across cloud and enterprise environments.

Das Generieren und Duplizieren neuer Inhalte ist nur ein Teil der Replikation, die während des gesamten Lebenszyklus von KI-Daten stattfindet. Die Datenmenge nimmt während des Entwicklungs- und Produktionsprozesses der KI zu und vergrößert sich exponentiell, sobald sie bereitgestellt wird und Inhalte generiert. Während dieses Zyklus wird das gesamte Datenökosystem zur regulatorischen Compliance immer wieder dupliziert.

Bei der Replikation werden die Daten bei jedem Schritt vervielfacht.
  • Beim Erkennen, Zusammenstellen und Beschriften von Daten für das Training werden diese auch dupliziert.
  • Regelmäßige Kontrollpunkte während des Trainings sichern den Fortschritt, wobei in einem typischen Trainingslauf Hunderte von großen Dateien entstehen.
  • Wenn Modelle und Anwendungen bereitgestellt werden, werden ihre Daten auf zahlreiche Knoten und Instanzen kopiert.
  • Immer mehr Menschen werden KI einsetzen, um mehrere Konzepte, Experimente und Versionen zu erstellen und zu iterieren.
Längere Aufbewahrung.

Die Aufbewahrung von Daten fördert die Entwicklung von KI und schafft Transparenz.

The data an AI model consumes and creates is a treasure trove of model behavior, usage patterns, and raw material. The more data we preserve, the better we can train and optimize models to produce better quality output.

Das Trainieren eines Modells beginnt mit einem großen Pool an beschrifteten Daten. Das Speichern von Daten während des Trainingslaufs, einschließlich der Kontrollpunktdaten, kann Aufschluss über das zukünftige Modellverhalten geben. Sobald das Modell bereitgestellt ist und Ergebnisse erzeugt, ist jede Anfrage und jede Antwort eine wertvolle Quelle für die Bewertung der Modellleistung, die Abstimmung des Modells und die Vorbereitung des nächsten Trainingslaufs.

Die Daten sollten zu jedem angemessenen Zeitpunkt des Datenzyklus aufbewahrt werden. 
  • Für die Verbesserung und Entwicklung von KI werden neue Daten und Erkenntnisse benötigt – aufbewahrte Daten können diese liefern.
  • Intelligentere KI könnte in der Zukunft Erkenntnisse aus gespeicherten Daten gewinnen und so neuen Wert schaffen. 
  • Die Urheberrechtsgesetze verlangen, dass Werke für die Verwendung lizenziert werden, und die Aufbewahrung von Daten sorgt für eine überprüfbare Dokumentation.
  • Die Vorschriften verlangen eine sichere Speicherung, um die Einhaltung von Datenschutz-, rechtlichen und ethischen Richtlinien zu gewährleisten.
Zuverlässige KI hängt von der Transparenz der Daten ab.

Die langfristige Speicherung von Daten ist entscheidend für die Zuverlässigkeit eines KI-Modells. Die Dokumentation jeder Entscheidung, die das Modell trifft, und die Analyse der Ergebnisse helfen den Entwicklern, Modellabweichungen und Halluzinationen zu erkennen.

Die Rückverfolgung von Fehlern zu den Trainingsdaten kann dazu beitragen, die Entscheidungsprozesse eines bestimmten Modells zu entschlüsseln und Daten für ein erneutes Training und eine Optimierung zu liefern. Alle diese Datenpunkte sollten aufbewahrt und weitergegeben werden, um als objektiver, transparenter Nachweis der Leistung des Modells zu dienen.