Tom Prohofsky

Perspective

03 avr., 2025

IA

Stockage des données : la pierre angulaire de l'apprentissage automatique et de l'IA

Tom Prohofsky

Perspective

data-storage-is-the-oxygen-images-hero-1440x1080

L'intelligence artificielle (IA) et l'apprentissage automatique (ML, machine learning) ont permis des avancées décisives, depuis la prédiction des structures des protéines à la traduction en temps réel. Au cœur de ces innovations, un besoin insatiable de données de qualité. Les modèles d'IA s'appuient sur de vastes ensembles de données, mais sans un stockage fiable et rentable, ces modèles, et les informations qu'ils génèrent, ne pourraient pas atteindre leur potentiel.

Tout comme l'oxygène alimente l'esprit humain, le développement de l'intelligence artificielle n'existerait pas sans le stockage des données. La capacité à stocker, utiliser et traiter efficacement les données détermine l'efficacité avec laquelle les modèles de l'IA sont entraînés et affinés. Cependant, à mesure que la demande en solutions basées sur l’IA augmente, les difficultés liées à la gestion du cycle de vie de ces données, de la collecte au stockage en passant par le traitement, tout en maîtrisant les coûts et la complexité, augmentent aussi.

La demande en données compatibles avec l'IA en augmentation constante

La science des données a évolué : des feuilles de calcul et des analyses simples, elle est passée à la génération d'informations puissantes axées sur l'apprentissage automatique. Selon le ministère du travail américain, il existerait aujourd'hui plus de 200 000 emplois en lien avec la science des données, un chiffre qui devrait croître de 36 % au cours de la prochaine décennie. Dans tous les secteurs d'activité, les experts intègrent des outils d'IA dans leurs flux de travail, qu'ils aient ou non reçu une formation en science des données adéquate, grâce notamment aux plates-formes sans code qui leur permettent de créer des modèles et d'analyser les données à des vitesses inédites.

Mais les données brutes, en l'état, ne sont pas très utiles. Avant d'être introduites dans les modèles d'IA, elles doivent être structurées, nettoyées et étiquetées, un processus souvent appelé « traitement des données ». Des outils open source tels que Pandas contribuent à structurer ces ensembles volumineux de données pour faciliter leur utilisation par les modèles d'IA. Ce processus ne peut toutefois se faire sans une solution de stockage des données rapide, efficace et locale permettant d'éviter les goulots d'étranglement susceptibles de ralentir le développement des modèles.

Le défi lié à la gestion des données d'IA

Le volume de données d'entraînement de l'IA pose d'importants problèmes logistiques. Le stockage et la gestion d'ensembles de données n'est pas juste une question de capacité. Le coût, la conformité et l'accessibilité entrent aussi en ligne de compte.

Voici des exemples de défis liés à la gestion des données de l'IA :

  • Souveraineté et sécurité des données. Les organisations doivent respecter les réglementations régissant la propriété intellectuelle, la vie privée et le contrôle juridictionnel.
  • Coûts du stockage dans le cloud. Le stockage d'ensembles de données d'IA dans le cloud peut coûter entre cinq et 10 fois plus cher que les solutions NAS sur site.
  • Goulots d'étranglement des données. Le transfert de volumes élevés de données sur les réseaux étendus est lent et coûteux, en plus d'être source de retards pour les équipes dispersées géographiquement.

Les modes traditionnels de stockage centralisé se heurtent à des sources de données réparties en plusieurs endroits. De ce fait, un nombre croissant de professionnels de l'IA se tournent vers des solutions de stockage en périphérie localisées qui offrent un meilleur contrôle, des coûts moindres et une latence réduite.

Des données de l'IA stockées en périphérie

Au lieu de transférer des volumes élevés de données d’IA sur des serveurs cloud centralisés, les organisations peuvent les traiter et les stocker près de l'endroit où elles sont générées. Cette approche, souvent appelée « edge computing », permet de réduire les coûts de transfert tout en améliorant les performances.
Les petits systèmes NAS hybrides qui fournissent un stockage local très performant pour les charges de travail de l'IA constituent une solution économique. Contrairement aux NAS traditionnels, ils intègrent des outils d’IA conteneurisés, tels que Jupyter Notebooks, permettant aux experts du secteur et aux développeurs IA de collaborer directement sur le système de stockage même. En évitant les transferts de données continus, ces solutions NAS réduisent les coûts d'exploitation tout en accélérant le développement de l'IA.
Le traitement des données d'IA en périphérie permet également de mieux contrôler les volumes de données. En maintenant la souveraineté sur les données d'entraînement de l'IA, les organisations sont mieux à même de respecter les réglementations du secteur tout en réduisant les risques associés au stockage par des tiers. Cette approche optimise les flux de travail liés à l'IA en conservant les données à proximité de leur site de collecte et d'analyse.

L'edge computing offre plusieurs avantages pour le développement de l'IA :

  • Un coût moindre. Les coûts de stockage dans le cloud et de transfert des données sont réduits.
  • L'accélération du développement de l'IA. Les données d'entraînement sont conservées en local pour un accès rapide.
  • Un meilleur contrôle des données. La souveraineté et la conformité sont garanties grâce au stockage et au traitement des données en interne.

Atelier IA en périphérie : architecture et configuration du système

Pour étudier la possibilité d'exécuter des charges de travail d'IA sur un stockage localisé, nous avons créé un cluster NAS à trois nœuds et mesuré ses performances de stockage.

Configuration système :

  • Matériel :
  • Processeur Intel N5095 (faible consommation d'énergie)
  • Deux ports Ethernet 2,5GE
  • 4 disques durs IronWolf® Pro 24 To (RAID5, 70 To utilisables par nœud)
  • SSD et unités de traitement de tenseur (TPU) en option pour accélération
  • Logiciels :
  • Conteneurs Jupyter Notebook pour le développement de données d'IA basées sur Python
  • NATS Jetstream pour la messagerie tolérante aux pannes ainsi que le stockage de clé-valeur et d'objets
  • Réplication des données multinœuds pour la redondance et la résilience
data-storage-is-the-oxygen-images-figure-1-1440x900

Tests de performances : évaluation du stockage et du réseau

Nous avons d'abord mesuré les performances d'un seul nœud pour déterminer le débit de base. Le système a atteint 200 Mo/s par liaison 2,5GE pour les transferts de données volumineux.

data-storage-is-the-oxygen-images-figure-2-1440x900

Nous avons ensuite analysé l'impact de la réplication multinœud sur les performances. Alors que la réplication des données augmentait le trafic réseau, son impact sur les performances de lecture était minime, un avantage de taille pour les charges de travail nécessitant la cohérence des données sur plusieurs nœuds.

data-storage-is-the-oxygen-images-figure-3-1440x900

Les tests de performances du réseau ont montré que l'ajout d'une deuxième liaison 2,5GE n'offrait que des avantages mineurs en termes d'écriture, tandis que le réseau 10GE améliorait parfois les performances.

data-storage-is-the-oxygen-images-figure-4-1440x900

Entraînement de l'IA à la périphérie en conditions réelles

Pour simuler un flux de travail IA, nous avons testé une tâche d'entraînement automatique en situation réelle sur le système NAS. Nous avons entraîné un modèle de classification des navires à l'aide d'un ensemble de données de 500 images libellées, en utilisant l'extraction des caractéristiques et l'entraînement du modèle en local.

Après avoir stocké les images dans un compartiment de stockage d'objets avec des étiquettes de métadonnées, nous avons utilisé PyTorch Img2Vec pour extraire des éléments de chaque image, puis entraîner un classificateur de forêt aléatoire. Ce modèle a atteint une précision de 78 % en moins d'une minute.

data-storage-is-the-oxygen-images-figure-5-1440x900

Voici les principales observations de ce test :

  • L'extraction des caractéristiques a pris le plus de temps (81 %) renforçant la nécessité d'un stockage local rapide.
  • L'entraînement du modèle d'IA a été effectué en moins d'une minute, démontrant ainsi l'efficacité des NAS locaux pour les flux de données IA.
  • Bien que n’ayant pas suivi de formation réelle sur l’IA, les experts du secteur ont pu mener à bien l’es experts du secteur ont pu mener à bien l'expérience, prouvant l'accessibilité de cette approche.

Cette expérience a montré que le stockage NAS localisé peut servir de hub de données d'IA économique et réduire la dépendance aux services cloud tout en améliorant l'accessibilité et les performances.

Conclusion : Les solutions de stockage des données d'IA doivent évoluer

L'avenir de l'IA dépend de la capacité à stocker les données de manière efficace, économique et évolutive. Face à l'explosion des données, les organisations doivent repenser la manière dont elles stockent et gèrent les données de l'IA.

Offrant une alternative pratique au stockage cloud onéreux, les solutions NAS localisées permettent aux équipes IA :

  • de réduire les coûts tout en garantissant un accès aux données très performant ;
  • d'améliorer l'efficacité des flux de travail IA en gardant les données à proximité de l'outil de calcul ;
  • de renforcer la conformité et la souveraineté en contrôlant l'emplacement de stockage des données d'IA.

Tout comme il ne peut y avoir de vie sans oxygène, l'innovation dans le domaine de l'IA dépend du stockage. En rendant le stockage compatible avec l'IA plus accessible, plus rentable et plus performant, les organisations peuvent accélérer leurs percées dans le domaine de l'IA.

Rubriques connexes :

Innovation Data Center