Stockage des données : la pierre angulaire de l'apprentissage automatique et de l'IA
03 avr., 2025
L'intelligence artificielle (IA) et l'apprentissage automatique (ML, machine learning) ont permis des avancées décisives, depuis la prédiction des structures des protéines à la traduction en temps réel. Au cœur de ces innovations, un besoin insatiable de données de qualité. Les modèles d'IA s'appuient sur de vastes ensembles de données, mais sans un stockage fiable et rentable, ces modèles, et les informations qu'ils génèrent, ne pourraient pas atteindre leur potentiel.
Tout comme l'oxygène alimente l'esprit humain, le développement de l'intelligence artificielle n'existerait pas sans le stockage des données. La capacité à stocker, utiliser et traiter efficacement les données détermine l'efficacité avec laquelle les modèles de l'IA sont entraînés et affinés. Cependant, à mesure que la demande en solutions basées sur l’IA augmente, les difficultés liées à la gestion du cycle de vie de ces données, de la collecte au stockage en passant par le traitement, tout en maîtrisant les coûts et la complexité, augmentent aussi.
La science des données a évolué : des feuilles de calcul et des analyses simples, elle est passée à la génération d'informations puissantes axées sur l'apprentissage automatique. Selon le ministère du travail américain, il existerait aujourd'hui plus de 200 000 emplois en lien avec la science des données, un chiffre qui devrait croître de 36 % au cours de la prochaine décennie. Dans tous les secteurs d'activité, les experts intègrent des outils d'IA dans leurs flux de travail, qu'ils aient ou non reçu une formation en science des données adéquate, grâce notamment aux plates-formes sans code qui leur permettent de créer des modèles et d'analyser les données à des vitesses inédites.
Mais les données brutes, en l'état, ne sont pas très utiles. Avant d'être introduites dans les modèles d'IA, elles doivent être structurées, nettoyées et étiquetées, un processus souvent appelé « traitement des données ». Des outils open source tels que Pandas contribuent à structurer ces ensembles volumineux de données pour faciliter leur utilisation par les modèles d'IA. Ce processus ne peut toutefois se faire sans une solution de stockage des données rapide, efficace et locale permettant d'éviter les goulots d'étranglement susceptibles de ralentir le développement des modèles.
Le volume de données d'entraînement de l'IA pose d'importants problèmes logistiques. Le stockage et la gestion d'ensembles de données n'est pas juste une question de capacité. Le coût, la conformité et l'accessibilité entrent aussi en ligne de compte.
Voici des exemples de défis liés à la gestion des données de l'IA :
Les modes traditionnels de stockage centralisé se heurtent à des sources de données réparties en plusieurs endroits. De ce fait, un nombre croissant de professionnels de l'IA se tournent vers des solutions de stockage en périphérie localisées qui offrent un meilleur contrôle, des coûts moindres et une latence réduite.
Au lieu de transférer des volumes élevés de données d’IA sur des serveurs cloud centralisés, les organisations peuvent les traiter et les stocker près de l'endroit où elles sont générées. Cette approche, souvent appelée « edge computing », permet de réduire les coûts de transfert tout en améliorant les performances.
Les petits systèmes NAS hybrides qui fournissent un stockage local très performant pour les charges de travail de l'IA constituent une solution économique. Contrairement aux NAS traditionnels, ils intègrent des outils d’IA conteneurisés, tels que Jupyter Notebooks, permettant aux experts du secteur et aux développeurs IA de collaborer directement sur le système de stockage même. En évitant les transferts de données continus, ces solutions NAS réduisent les coûts d'exploitation tout en accélérant le développement de l'IA.
Le traitement des données d'IA en périphérie permet également de mieux contrôler les volumes de données. En maintenant la souveraineté sur les données d'entraînement de l'IA, les organisations sont mieux à même de respecter les réglementations du secteur tout en réduisant les risques associés au stockage par des tiers. Cette approche optimise les flux de travail liés à l'IA en conservant les données à proximité de leur site de collecte et d'analyse.
L'edge computing offre plusieurs avantages pour le développement de l'IA :
Pour étudier la possibilité d'exécuter des charges de travail d'IA sur un stockage localisé, nous avons créé un cluster NAS à trois nœuds et mesuré ses performances de stockage.
Nous avons d'abord mesuré les performances d'un seul nœud pour déterminer le débit de base. Le système a atteint 200 Mo/s par liaison 2,5GE pour les transferts de données volumineux.
Nous avons ensuite analysé l'impact de la réplication multinœud sur les performances. Alors que la réplication des données augmentait le trafic réseau, son impact sur les performances de lecture était minime, un avantage de taille pour les charges de travail nécessitant la cohérence des données sur plusieurs nœuds.
Les tests de performances du réseau ont montré que l'ajout d'une deuxième liaison 2,5GE n'offrait que des avantages mineurs en termes d'écriture, tandis que le réseau 10GE améliorait parfois les performances.
Pour simuler un flux de travail IA, nous avons testé une tâche d'entraînement automatique en situation réelle sur le système NAS. Nous avons entraîné un modèle de classification des navires à l'aide d'un ensemble de données de 500 images libellées, en utilisant l'extraction des caractéristiques et l'entraînement du modèle en local.
Après avoir stocké les images dans un compartiment de stockage d'objets avec des étiquettes de métadonnées, nous avons utilisé PyTorch Img2Vec pour extraire des éléments de chaque image, puis entraîner un classificateur de forêt aléatoire. Ce modèle a atteint une précision de 78 % en moins d'une minute.
Voici les principales observations de ce test :
Cette expérience a montré que le stockage NAS localisé peut servir de hub de données d'IA économique et réduire la dépendance aux services cloud tout en améliorant l'accessibilité et les performances.
Conclusion : Les solutions de stockage des données d'IA doivent évoluer
L'avenir de l'IA dépend de la capacité à stocker les données de manière efficace, économique et évolutive. Face à l'explosion des données, les organisations doivent repenser la manière dont elles stockent et gèrent les données de l'IA.
Offrant une alternative pratique au stockage cloud onéreux, les solutions NAS localisées permettent aux équipes IA :
Tout comme il ne peut y avoir de vie sans oxygène, l'innovation dans le domaine de l'IA dépend du stockage. En rendant le stockage compatible avec l'IA plus accessible, plus rentable et plus performant, les organisations peuvent accélérer leurs percées dans le domaine de l'IA.
Pourquoi les données sont l’atout déterminant de l’économie de l’IA