La IA generativa finalmente está haciendo realidad la promesa del uso de datos masivos o big data
24 oct., 2025
El comentarista de Bloomberg y CNBC, Bob O'Donnell, habla sobre la democratización del análisis de datos y sus implicaciones en el almacenamiento.
Quienes han estado siguiendo las grandes tendencias de la industria tecnológica durante un tiempo, sin duda recordarán el concepto de "big data". La idea era que las empresas reunieran todas las diversas fuentes de datos a las que tenían acceso (desde documentos de oficina y correos electrónicos tradicionales, datos de procesos comerciales, resultados de ventas, bases de datos de clientes, videos, registros de chat y más) y luego aprovecharan todos esos datos para obtener información significativa para empoderar a sus organizaciones.
En teoría, el concepto era sólido y las expectativas en torno a él eran altas. Era inevitable que aparecieran datos útiles ocultos y muchas ideas inesperadas a medida que se combinaban todas las diversas fuentes de datos en lo que los defensores creían que sería una poderosa mezcla de significados. En la práctica, lamentablemente, los resultados fueron muy diferentes.
En primer lugar, resultó ser mucho más difícil organizar los datos de una empresa en una estructura que permitiera combinar o comparar las diversas fuentes de manera significativa. No solo había problemas con cuestiones como reunir datos estructurados y no estructurados, sino que también había dificultades con el reformateo, la importación, la vinculación y otras formas de manipulación de datos.
Sin embargo, lo que resultó aún más difícil fue intentar analizar los almacenes de datos a los que sí tenían acceso. Resultó que solo aquellos que tenían una formación muy especializada en herramientas avanzadas de análisis de datos, es decir, los expertos en SQL, podían crear los comandos muy complejos necesarios para acceder a este vasto tesoro de datos. Desafortunadamente, muchas de esas personas no sabían qué tipos de consultas podían generar los conocimientos inesperados que prometía el uso de datos masivos. Los empresarios en general que sí tenían conciencia de esas cuestiones no podían generar fácilmente las consultas, por lo que muchos esfuerzos acabaron esencialmente perdidos en la traducción entre los dos grupos.
Con el uso cada vez más extendido de la GenAI, que es extremadamente eficaz a la hora de encontrar patrones y generar ideas a partir de una enorme base de datos, la situación ha comenzado a dar un giro. Al introducir los datos de una organización en un modelo de IA, ya sea mediante el entrenamiento de un modelo personalizado o la personalización de un modelo de lenguaje grande (LLM) existente, las organizaciones ahora pueden finalmente crear el gigantesco almacén de datos que siempre se pretendió que fuera el núcleo de las consultas de los datos masivos. Además, las interfaces sencillas de estilo chatbot que aprovechan estos modelos ahora están disponibles para que las personas de cualquier nivel de una organización las utilicen fácilmente. El resultado neto es que la promesa original del big data finalmente se está haciendo realidad. Desde los comerciales junior que investigan una corazonada sobre una tendencia que creen estar empezando a ver en el terreno, hasta los ejecutivos de alto nivel que buscan paneles de control generales que combinen ciertas métricas clave, las personas de todas las organizaciones ahora pueden aprovechar la GenAI para obtener una enorme variedad de información sobre los negocios.
Las implicaciones de esto en el almacenamiento de datos dentro de una organización son enormes. Si bien en el pasado algunas organizaciones podían descartar o desconectar ciertas fuentes de datos debido a su valor percibido como limitado, cada vez se reconoce más que cualquier fuente de datos podría acabar ayudando a descubrir nuevas perspectivas y tendencias imprevistas. Como resultado, las empresas no solo se aseguran de conservar todos los datos que generan, sino que también los ponen a disposición de todos.
Uno de los factores clave que impulsan esta tendencia son los buenos y clásicos discos duros magnéticos tradicionales. Gracias a los avances tecnológicos como Seagate Mozaic, ahora es posible colocar 3 TB de datos en un solo plato dentro de un disco duro. La ampliación a un sistema de almacenamiento tipo bastidor en un centro de datos corporativo o en un sitio de coubicación se traduce en hasta 32 PB de almacenamiento en un único espacio de bastidor de 19 pulgadas de ancho y 73 pulgadas de alto (42U). Al habilitar este tipo de capacidades de almacenamiento, las organizaciones pueden almacenar de manera muy eficiente grandes cantidades de datos, lo que les permite consolidar numerosas unidades de menor capacidad en sistemas más pequeños y eficientes desde el punto de vista energético, y garantizar que dispongan de espacio suficiente para seguir creciendo.
Si se analiza el panorama general, este tipo de unidades de disco duro de alta capacidad encajan perfectamente en una arquitectura de almacenamiento global. Las organizaciones seguirán utilizando unidades SSD de alta velocidad para almacenar las últimas versiones de sus modelos GenAI y otras aplicaciones en las que la importancia de la velocidad de acceso a la memoria supera las exigencias de capacidad. Del mismo modo, es probable que otros tipos de unidades SSD se aprovechen para aplicaciones como chatbots con IA, almacenamiento de consultas rápidas y otras aplicaciones con exigencias moderadas. Sin embargo, para el almacenamiento de datos de uso general de muchas de las fuentes que alimentan estos modelos de IA personalizados, las unidades de disco duro de alta capacidad ofrecen un conjunto óptimo de características que se adaptan muy bien a la aplicación.
Otro factor crítico es la ubicación de estos dispositivos de almacenamiento de datos. Por motivos de coste y seguridad, la mayoría de las organizaciones mantienen gran parte de sus datos detrás de su propio cortafuegos, en lugar de en la nube. Esto es especialmente cierto en el caso de algunas de las fuentes de datos menos accesibles, que ahora pueden integrarse más fácilmente en los modelos de IA gracias a las nuevas herramientas de entrenamiento y personalización de modelos. A medida que las organizaciones comienzan a crear sus propios modelos de IA, se ha producido un gran resurgimiento en la creación de su propia infraestructura interna de IA para entrenar, personalizar y alojar algunos de esos modelos. Empresas como Dell, HPE, Lenovo y Cisco están experimentando un gran aumento en la demanda de servidores equipados con GPU diseñados para empresas, y Nvidia lleva ya un tiempo hablando del auge de las fábricas de IA empresariales. El resultado es un renovado interés por construir centros de datos corporativos con todos los recursos informáticos, de red y de almacenamiento que ello conlleva.
Con todos estos elementos de hardware encajando en su sitio, combinados con la rápida expansión de las capacidades y el creciente uso de los modelos y herramientas de GenAI, el potencial para el tipo de visión de los datos masivos con información significativa que se nos prometió originalmente está finalmente a nuestro alcance. Aunque no todos los esfuerzos conducirán necesariamente a revelaciones mágicas, ya está claro que uno de los resultados más sorprendentes y beneficiosos del uso de la GenAI —la verdadera democratización del análisis de datos— ya está aquí y está empezando a dejar sentir su impacto.
¿Quiere hacer realidad su visión de big data? Hable con un experto para aprender cómo.
President and chief analyst of TECHnalysis Research, Bob O’Donnell is a regular guest on Yahoo Finance, Bloomberg and CNBC.