Tom Prohofsky

Perspective

03 abr., 2025

Inteligencia artificial (IA)

El almacenamiento de datos es el oxígeno del aprendizaje automático y de la IA

Tom Prohofsky

Perspective

data-storage-is-the-oxygen-images-hero-1440x1080

La inteligencia artificial (IA) y el aprendizaje automático (ML) han impulsado avances transformadores, desde la predicción de estructuras de proteínas hasta la habilitación de la traducción de idiomas en tiempo real. En el centro de estas innovaciones se encuentra una necesidad insaciable de datos de alta calidad. Los modelos de IA prosperan con grandes conjuntos de datos, pero sin un almacenamiento de datos confiable y rentable, estos modelos (y los conocimientos que generan) no podrían alcanzar su potencial.

Al igual que el oxígeno alimenta la mente humana, el almacenamiento de datos impulsa el desarrollo de la IA. La capacidad de almacenar, acceder y procesar datos de manera eficiente determina la eficacia con la que se entrenan y perfeccionan los modelos de IA. Sin embargo, a medida que crece la demanda de soluciones impulsadas por IA, también crece el desafío de gestionar el ciclo de vida de los datos de IA (desde la recopilación hasta el almacenamiento y el procesamiento), todo ello manteniendo bajo control los costos y la complejidad.

La creciente demanda de datos preparados para la IA

La ciencia de datos ha evolucionado desde hojas de cálculo y análisis simples a información poderosa impulsada por ML. Hoy, el Departamento de Trabajo de EE. UU. informa que existen más de 200.000 puestos de trabajo en ciencia de datos, con un crecimiento proyectado del 36 % durante la próxima década. Los expertos de distintos sectores están incorporando herramientas de IA a sus flujos de trabajo, incluso sin capacitación formal en ciencia de datos, utilizando plataformas sin código que les permiten crear modelos y analizar datos más rápido que nunca.

Pero los datos sin procesar no son útiles por sí solos. Antes de poder incorporarlos a los modelos de IA, deben estructurarse, limpiarse y etiquetarse, un proceso a menudo denominado manipulación de datos. Las herramientas de código abierto como Pandas ayudan a transformar conjuntos de datos masivos en formatos estructurados que los modelos de IA pueden utilizar. Sin embargo, este proceso requiere un almacenamiento de datos rápido, eficiente y local para evitar cuellos de botella que ralentizan el desarrollo del modelo.

El desafío de la gestión de datos de IA

El gran volumen de datos de entrenamiento de IA presenta desafíos logísticos importantes. Almacenar y administrar grandes conjuntos de datos no es solo una cuestión de capacidad, sino también de costo, cumplimiento y accesibilidad.

Algunos de los mayores desafíos en la gestión de datos de IA incluyen:

  • Soberanía y seguridad de los datos. Las organizaciones deben cumplir con las regulaciones que rigen la propiedad intelectual, la privacidad y el control jurisdiccional.
  • Costos de almacenamiento en la nube. Los conjuntos de datos de IA almacenados en la nube pueden ser de cinco a diez veces más costosos que el uso de soluciones NAS locales.
  • Cuellos de botella en el movimiento de datos. La transferencia de grandes conjuntos de datos a través de redes de área amplia es lenta y costosa, y genera demoras para equipos dispersos geográficamente.

Los enfoques tradicionales de almacenamiento centralizado se ven desafiados por fuentes de datos geográficamente dispersas. Un número cada vez mayor de profesionales de IA están recurriendo a soluciones de almacenamiento localizadas y de borde que ofrecen mayor control, menores costos y menor latencia.

Llevar el almacenamiento de datos de IA a la periferia

En lugar de transferir grandes conjuntos de datos a servidores en la nube centralizados, las organizaciones pueden procesar y almacenar datos de IA más cerca de donde se generan. Este enfoque, a menudo denominado computación de borde, minimiza los costos de movimiento de datos y al mismo tiempo mejora el rendimiento.
Una solución rentable son los sistemas NAS pequeños e híbridos que proporcionan almacenamiento local de alto rendimiento para cargas de trabajo de IA. A diferencia del NAS tradicional, estos sistemas integran herramientas de IA en contenedores, como Jupyter Notebooks, lo que permite que los expertos en el dominio y los desarrolladores de IA colaboren directamente en el propio sistema de almacenamiento. Al eliminar la necesidad de transferencias de datos constantes, estas soluciones NAS reducen los costos operativos y aceleran el desarrollo de la IA.
El procesamiento de datos de IA en la periferia también les da a las organizaciones un mayor control sobre sus conjuntos de datos. Mantener la soberanía sobre los datos de entrenamiento de IA garantiza el cumplimiento de las regulaciones de la industria y reduce los riesgos asociados con el almacenamiento de terceros. Este enfoque hace que los flujos de trabajo de IA sean más eficientes al mantener los datos cerca de donde se recopilan y analizan.

La computación en la periferia ofrece múltiples ventajas para el desarrollo de IA:

  • Costos más bajos. Reduce el almacenamiento en la nube y los gastos de transferencia de datos.
  • Desarrollo de IA más rápido. Mantiene los datos de entrenamiento locales para un acceso rápido.
  • Mejor control de datos. Mantiene la soberanía y el cumplimiento al garantizar que los datos se almacenen y procesen internamente.

Laboratorio perimetral de IA: Arquitectura y configuración del sistema

Para explorar la viabilidad de ejecutar cargas de trabajo de IA en almacenamiento localizado, construimos un clúster NAS de tres nodos y medimos su rendimiento de almacenamiento.

Configuración del sistema:

  • Hardware:
  • Procesador Intel N5095 (bajo consumo de energía)
  • Dos puertos Ethernet 2,5 GE
  • 4 discos duros IronWolf® Pro de 24 TB (RAID5, 70 TB utilizables por nodo)
  • Unidades SSD y de procesamiento tensorial (TPU) opcionales para aceleración
  • Software:
  • Contenedores de Jupyter Notebook para el desarrollo de IA basado en Python
  • NATS Jetstream para mensajería tolerante a fallos, almacenamiento de valores clave y almacenamiento de objetos
  • Replicación de datos de múltiples nodos para redundancia y resiliencia
data-storage-is-the-oxygen-images-figure-1-1440x900

Pruebas de rendimiento: Evaluación del almacenamiento y la red

Primero medimos el rendimiento de un solo nodo para establecer una línea de base para el rendimiento. El sistema alcanzó 200 MB/s por enlace 2,5 GE para transferencias de datos de gran tamaño.

data-storage-is-the-oxygen-images-figure-2-1440x900

Luego analizamos cómo la replicación de múltiples nodos afectaba el rendimiento. Si bien la replicación de datos incrementó el tráfico de la red, tuvo un impacto mínimo en el rendimiento de lectura, una ventaja clave para las cargas de trabajo que requieren consistencia de datos en múltiples nodos.

data-storage-is-the-oxygen-images-figure-3-1440x900

Las pruebas de rendimiento de red revelaron que agregar un segundo enlace 2.5GE solo proporcionó beneficios de escritura menores, mientras que la red 10 GE mejoró el rendimiento en casos seleccionados.

data-storage-is-the-oxygen-images-figure-4-1440x900

Entrenamiento de IA en el mundo real en la periferia

Para simular un flujo de trabajo de IA, probamos una tarea de aprendizaje automático del mundo real utilizando el sistema NAS. Entrenamos un modelo de clasificación de embarcaciones utilizando un conjunto de datos de 500 imágenes etiquetadas, ejecutando la extracción de características y el entrenamiento del modelo localmente.

Después de almacenar las imágenes en un depósito de almacenamiento de objetos con etiquetas de metadatos, utilizamos PyTorch Img2Vec para extraer características de cada imagen y luego entrenamos un clasificador de bosque aleatorio. El modelo resultante alcanzó una precisión del 78 % en menos de un minuto.

data-storage-is-the-oxygen-images-figure-5-1440x900

Las observaciones clave de esta prueba incluyeron:

  • La extracción de características tomó la mayor parte del tiempo (81 %), lo que refuerza la necesidad de un almacenamiento local rápido.
  • El entrenamiento del modelo de IA se completó en menos de un minuto, lo que demuestra la eficiencia del NAS local para los flujos de trabajo de IA.
  • Los expertos del dominio sin capacitación formal en IA pudieron ejecutar el experimento con éxito, lo que demuestra la accesibilidad de este enfoque.

Este experimento demostró que el almacenamiento NAS localizado puede servir como un centro de datos de IA rentable, reduciendo la dependencia de los servicios en la nube y mejorando la accesibilidad y el rendimiento.

Observaciones finales: El almacenamiento de IA debe evolucionar

El futuro de la IA depende de un almacenamiento de datos eficiente, rentable y escalable. A medida que los volúmenes de datos continúan creciendo, las organizaciones deben repensar cómo almacenan y gestionan los conjuntos de datos de IA.

Las soluciones NAS localizadas brindan una alternativa práctica al costoso almacenamiento en la nube, lo que permite a los equipos de IA:

  • Reducir los costos mientras mantiene un acceso de alto rendimiento a los datos.
  • Mejorar la eficiencia del flujo de trabajo de IA manteniendo los datos cerca del cálculo.
  • Mejorar el cumplimiento y la soberanía controlando dónde residen los datos de IA.

Al igual que el oxígeno sustenta la vida, el almacenamiento de datos sustenta la innovación en IA. Al hacer que el almacenamiento preparado para IA sea más accesible, rentable y de alto rendimiento, las organizaciones pueden acelerar sus avances impulsados ​​por IA.

Temas relacionados:

Innovation Data Center