Por Praveen Viraraghavan

03 mar., 2025

Inteligencia artificial (IA)

La evolución de las necesidades de almacenamiento para la infraestructura de la IA.

PraveenViraraghavan

Las soluciones de almacenamiento de IA deben evolucionar para gestionar el crecimiento masivo de datos. Las innovaciones como las unidades de doble accionador, el almacenamiento basado en NVMe y las soluciones de bajo consumo ayudan a equilibrar el rendimiento, la eficiencia energética y la escalabilidad.

Índice

A medida que la inteligencia artificial (IA) continúa avanzando, la infraestructura que la respalda debe evolucionar para manejar las crecientes demandas de almacenamiento y procesamiento de datos. El almacenamiento de datos juega un papel fundamental en el ciclo de vida de la infraestructura de la IA, y las soluciones deben ser capaces de soportar los desafíos actuales y futuros de la IA.

La cantidad de datos generados diariamente es asombrosa. Desde ciudades inteligentes que producen 143 petabytes de datos por día, según un informe de Kaleido Intelligence1, hasta vehículos autónomos que generan terabytes (TB) de datos, la necesidad de soluciones eficientes de almacenamiento de datos es más urgente que nunca. Las empresas de automóviles autónomos cargan grandes cantidades de datos a proveedores de servicios en la nube, donde se procesan y se utilizan para mejorar los modelos de IA. Este flujo continuo de datos requiere soluciones de almacenamiento robustas que puedan manejar tanto el volumen como la velocidad requeridos por las aplicaciones de IA.

Rendimiento frente a potencia.

A pesar del enfoque en tecnologías de vanguardia como las unidades de procesamiento gráfico (GPU), los discos duros siguen siendo un componente crítico de la infraestructura de IA. Proporcionan la capacidad de almacenamiento necesaria para los conjuntos de datos masivos utilizados en el entrenamiento y la inferencia de la IA. Mientras que las GPU se encargan del trabajo pesado del procesamiento de datos, los discos duros almacenan los datos que alimentan estos procesos. Esta relación simbiótica garantiza que los sistemas de IA puedan funcionar de manera eficiente sin encontrar limitaciones de almacenamiento.

Uno de los mayores desafíos en la infraestructura de la IA es equilibrar el rendimiento con el consumo de energía. A medida que los clústeres de GPU crecen, la potencia necesaria para ejecutarlos aumenta significativamente. Por ejemplo, las grandes implementaciones como las de los líderes en IA involucran miles de GPU, cada una de las cuales consume cantidades sustanciales de energía. Esto crea una necesidad de soluciones de almacenamiento que no solo ofrezcan un alto rendimiento sino que también funcionen de manera eficiente en términos de uso de energía. Para poner esto en perspectiva, una sola GPU puede consumir hasta 700 vatios, y las implementaciones a gran escala pueden involucrar hasta 100 000 GPU, lo que resulta en un requerimiento de energía de 70 megavatios. Este componente es equivalente a la asignación total de energía de un gran centro de datos. Por lo tanto, las soluciones de almacenamiento deben diseñarse para minimizar el consumo de energía y maximizar el rendimiento si quieren integrarse en la solución junto con las GPU.

La importancia de los puntos de control.

En el entrenamiento de IA, los puntos de control son fundamentales para evitar la pérdida de progreso en caso de fallas del sistema. Estos puntos de control guardan el estado del modelo de IA a intervalos regulares (por ejemplo, cada pocos minutos), lo que permite que el proceso de entrenamiento se reanude desde el último estado guardado en lugar de comenzar de nuevo. Esto es particularmente importante para las sesiones de entrenamiento de larga duración que pueden durar semanas o incluso meses. Los puntos de control eficientes requieren soluciones de almacenamiento rápidas que puedan guardar y recuperar rápidamente grandes cantidades de datos.

Por ejemplo, algunas plataformas de entrenamiento grandes crean puntos de control cada minuto durante el entrenamiento, guardando datos en unidades de estado sólido (SSD), para luego transferirlos a discos duros. Este proceso garantiza que, incluso si se produce un error, el entrenamiento se pueda reanudar con una pérdida de datos mínima. El tamaño de estos puntos de control puede ser considerable y algunos modelos requieren hasta 12 TB de almacenamiento por punto de control.

Las unidades de disco duro son esenciales para los puntos de control de IA debido a la escalabilidad, la rentabilidad, la eficiencia energética y la sostenibilidad, y la longevidad.

Tendencias e innovaciones futuras.

De cara al futuro, se espera que la demanda de almacenamiento de IA crezca exponencialmente. Según datos de Bloomberg Intelligence, IDC, eMarketer y Statista2, se proyecta que para 2032 el mercado de almacenamiento de IA alcanzará los 92 000 millones de dólares. Este crecimiento será impulsado por la creciente complejidad de los modelos de IA y la expansión del uso de la IA en diversas industrias. Para satisfacer estas demandas, las soluciones de almacenamiento deberán volverse más sofisticadas y ofrecer mayores capacidades, velocidades más rápidas y mejor eficiencia energética.

Se están explorando varias innovaciones técnicas para abordar las necesidades de almacenamiento de la infraestructura de la IA:

  • Crecimiento de la densidad de área. El crecimiento continuo de los discos duros mediante la innovación en los cabezales y medios de los dispositivos permite una mayor capacidad en el mismo factor de forma. Las unidades de disco duro compatibles con Mozaic son el almacenamiento en disco duro más eficiente del mundo, y son capaces de reducir los costos de adquisición y operativos a la vez que aumentan la productividad. Con la mayor densidad de área de Mozaic, los clientes pueden almacenar más datos sin aumentar el consumo de espacio, energía o recursos naturales. Mozaic 3+ también puede ayudar a los clientes a alcanzar los objetivos de sostenibilidad, una prioridad principal para los centros de datos a gran escala, al ofrecer una reducción del 55 % en el carbono incorporado por terabyte3.
  • Unidades de doble accionador. Estas unidades ofrecen un mayor rendimiento mediante el uso de dos accionadores para leer y escribir datos simultáneamente. Esto puede mejorar significativamente el producción de datos, lo que facilita la gestión de los grandes volúmenes de datos generados por las aplicaciones de IA.
  • Unidades de disco duro basadas en NVMe. La tecnología de memoria no volátil express (NVMe) proporciona un acceso a datos más rápido en comparación con las interfaces tradicionales SATA (conexión de tecnología avanzada en serie) o SAS (SCSI [interfaz de sistemas informático pequeño] conectada en serie). Al adoptar discos duros basados ​​en NVMe, los centros de datos pueden lograr un mayor rendimiento y una menor latencia, lo que es crucial para las cargas de trabajo de IA.
  • Interconexiones ópticas. A medida que aumentan las tasas de transferencia de datos, las interconexiones de cobre tradicionales pueden convertirse en un cuello de botella. Las interconexiones ópticas ofrecen mayor ancho de banda y menor latencia, lo que permite un movimiento de datos más rápido entre los dispositivos de almacenamiento y las unidades de procesamiento.
  • Soluciones de almacenamiento de uso eficiente de la energía. Con las crecientes demandas de energía de la infraestructura de IA, las soluciones de almacenamiento deben ser más eficientes energéticamente. Esto incluye el desarrollo de unidades que consuman menos energía manteniendo un alto rendimiento, así como la exploración de nuevas tecnologías de enfriamiento para gestionar el calor generado por implementaciones a gran escala.

Evolución de las demandas de almacenamiento de IA.

Las necesidades de almacenamiento para la infraestructura de la IA están evolucionando rápidamente, impulsadas por el crecimiento exponencial de los datos y la creciente complejidad de los modelos de IA. A medida que avancemos, será esencial desarrollar soluciones de almacenamiento que puedan seguir el ritmo de estas demandas, para que los sistemas de IA puedan seguir avanzando y cumplir su promesa de transformar las industrias y mejorar las vidas.

 


 

  1. Serie de conectividad IdC móvil: Oportunidades y pronósticos para las ciudades inteligentes, Kaleido Intelligence, 2023, https://kaleidointelligence.com/smart-cities-2027/
  2. La IA generativa se convertirá en un mercado de 1,3 billones de dólares para 2032, según un estudio de Bloomberg Intelligence, 2023, https://www.bloomberg.com/company/press/generative-ai-to-become-a-1-3-trillion-market-by-2032-research-finds/
  3. Unidad Mozaic 3+ de 30 TB comparada con una unidad PMR convencional de 16 TB. El carbono incorporado incluye las emisiones generadas durante la extracción de materias primas, la fabricación/montaje de productos y todo el transporte de materiales desde la extracción hasta la fabricación y desde la fabricación hasta los clientes.
Praveen Viraraghavan bio photo

Praveen Viraraghavan

Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.