La promesse du Big Data enfin concrétisée par l’IA générative
24 oct., 2025
Bob O’Donnell, le consultant de Bloomberg et de CNBC évoque la démocratisation de l’analyse des données et ses retombées sur le stockage
Celles et ceux qui suivent les tendances du secteur des hautes technologies depuis quelque temps déjà se souviendront sans doute du concept de « Big Data ». L’idée était que les entreprises allaient réunir toutes les sources de données disponibles (documents et e-mails traditionnels, données de processus métier, résultats commerciaux, bases de données clients, vidéos, journaux de chat, etc.) et en extraire des informations pertinentes et utiles pour leurs organisations.
En théorie, le concept était solide et les attentes à son égard étaient fortes. Pour ses partisans, il devait forcément y avoir des pépites d’informations utiles et de nombreuses perspectives inattendues cachées dans ces sources de données diverses qui, une fois combinées, donneraient accès à une fusion puissante de signification. Dans la pratique, malheureusement, les résultats étaient bien différents.
Il s’est d’abord avéré beaucoup plus difficile que prévu d’organiser les données d’une entreprise dans une structure permettant de combiner ou de comparer les différentes sources de manière significative. Diverses opérations posaient problème, comme le regroupement de données structurées et non structurées, ou encore le reformatage, l’importation, l’association de données, ainsi que d’autres formes de traitement.
Cependant, c’est au niveau de l’analyse des magasins de données accessibles que les plus grandes difficultés sont apparues. En effet, seules les personnes disposant d’une formation très spécialisée sur les outils d’analyse avancée (autrement dit, les experts SQL) maîtrisaient les commandes très complexes permettant d’exploiter cette vaste réserve de données. Malheureusement, la plupart de ces personnes ne savaient pas quels types de requêtes pouvaient générer les informations insoupçonnées promises par le Big Data. Or, les hommes d’affaires qui savaient quelles questions poser étaient incapables de générer facilement les requêtes correspondantes, et de nombreux efforts sont demeurés infructueux, faute de communication efficace entre ces deux groupes.
Avec l’utilisation de plus en plus répandue de l’IA générative, qui est extrêmement efficace pour identifier des tendances et générer des idées à partir d’une énorme base de données, la situation commence à changer. Les organisations peuvent désormais intégrer leurs données dans un modèle d’IA, soit en entraînant un modèle personnalisé, soit en personnalisant un grand modèle de langage (LLM) existant, et créer ainsi le magasin de données géant qui devait être au cœur des requêtes du Big Data. De plus, ces modèles sont associés à des interfaces simples de type chatbot que tout le personnel peut aisément utiliser à tous les niveaux de l’organisation. C’est ainsi que la promesse originelle du Big Data se concrétise enfin. Du jeune commercial souhaitant confirmer son intuition à propos d’une tendance qu’il a observée sur le terrain au cadre dirigeant cherchant des tableaux de bord globaux combinant certains indicateurs clés, tous les membres d’une organisation peuvent maintenant profiter de l’IA générative pour obtenir un large éventail d’informations sur ses activités.
Les retombées de cette tendance sur le stockage des données au sein d’une organisation sont énormes. De plus en plus d’organisations qui, auparavant, auraient choisi de supprimer ou de déconnecter des données paraissant peu utiles, reconnaissent aujourd’hui que toute source de données peut contribuer à la découverte de nouvelles perspectives et tendances inattendues. En conséquence, les entreprises veillent non seulement à conserver toutes les données qu’elles génèrent, mais aussi à les rendre toutes disponibles.
Le bon vieux disque dur magnétique traditionnel fait partie des principaux leviers de cette tendance. Grâce à des innovations technologiques telles que Seagate MozaicTM, il est désormais possible de stocker 3 To de données sur un seul plateau à l’intérieur d’un disque dur. Appliquez cette formule à un système de stockage de type rack dans un centre de données d’entreprise ou sur un site de colocation et vous obtenez jusqu’à 32 Po de stockage dans un seul espace rack de 19 pouces de large et 73 pouces de haut (42U). Avec de telles capacités, les organisations peuvent stocker très efficacement de grandes quantités de données. Elles peuvent ainsi consolider de nombreux disques de moindre capacité dans des systèmes plus petits et plus économes en énergie et s’assurer d’avoir suffisamment d’espace pour leur future croissance.
De façon plus générale, ces disques durs de capacité élevée s’intègrent parfaitement dans une architecture de stockage globale. Les organisations continueront de stocker les dernières versions de leurs modèles d’IA générative et d’autres applications sur des SSD haute vitesse, quand la rapidité d’accès à la mémoire prime sur les exigences de capacité. Et elles utiliseront probablement d’autres types de SSD pour les chatbots IA ou le stockage des requêtes, par exemple, et pour d’autres applications moyennement exigeantes. En revanche, pour stocker les données à usage général issues des nombreuses sources qui alimentent ces modèles d’IA personnalisés, les disques durs de capacité élevée leur offrent un ensemble optimal de caractéristiques tout à fait adapté à l’application.
L’emplacement de ces périphériques de stockage de données est, lui aussi, un facteur critique. Pour des raisons de coût et de sécurité, la plupart des organisations conservent l’essentiel de leurs données derrière leur propre pare-feu plutôt que dans le cloud. Cela se vérifie en particulier pour les sources de données les moins consultées que l’on peut désormais intégrer plus facilement dans les modèles d’IA grâce aux nouveaux outils d’entraînement et de personnalisation des modèles. Alors que les organisations commencent à créer leurs propres modèles d’IA, on assiste à une résurgence de la création d’infrastructures d’IA internes permettant d’entraîner, de personnaliser et d’héberger certains de ces modèles. Des entreprises comme Dell, HPE, Lenovo et Cisco constatent une forte augmentation de la demande de serveurs à processeurs graphiques (GPU) conçus pour les entreprises, et Nvidia communique déjà depuis un certain temps sur l’essor des usines d’IA d’entreprise. Il en résulte un regain d’intérêt pour la création de centres de données d’entreprise disposant de toutes les ressources que cela implique (calcul, réseau et stockage).
Avec la mise en place de tous ces éléments matériels, la croissance rapide des capacités et l’utilisation accrue des modèles et outils d’IA générative, nous avons enfin la possibilité d’accéder aux analyses pertinentes que le Big Data nous promettait. Tous ces efforts ne conduiront pas forcément à des révélations « magiques », mais nous pouvons déjà affirmer que la véritable démocratisation de l’analyse des données, un des effets les plus surprenants et bénéfiques de l’utilisation de l’IA générative, est en marche et qu’elle commence à faire sentir son impact.
President and chief analyst of TECHnalysis Research, Bob O’Donnell is a regular guest on Yahoo Finance, Bloomberg and CNBC.
Pourquoi les données sont l’atout déterminant de l’économie de l’IA