28 jun., 2025
A medida que los requisitos de multiinquilino y alto rendimiento transforman la infraestructura de datos, uno de los cambios más trascendentales no solo se está produciendo en los clústeres de formación, sino también en los sistemas que responden en tiempo real a miles de millones de interacciones de los usuarios.
En uno de los gigantes de Internet más grandes del mundo1, los arquitectos de infraestructura se han propuesto recientemente replantearse una carga de trabajo clave relacionada con la interacción de los usuarios: la infraestructura de almacenamiento en caché que da soporte a la actividad de comentarios en las redes sociales (es decir, una capa de datos temporal que permite un acceso rápido al contenido solicitado con frecuencia). Había mucho en juego, como el aumento del tráfico, la alta concurrencia y la gran demanda de lectura/escritura, y también era importante reducir los costes y el consumo de energía a gran escala. El equipo identificó una solución estratégica, aunque poco convencional: un nivel de caché basado en unidades de disco duro, construido con unidades empresariales Seagate de baja capacidad.
Algunos suponen que esta capa requiere flash, pero el análisis de la carga de trabajo demostró que las unidades de disco duro satisfacen las exigencias de rendimiento y, al mismo tiempo, ofrecen importantes ventajas en términos de coste y eficiencia, especialmente para las cargas de trabajo de inferencia y almacenamiento temporal de datos, que suelen estar más limitadas por el coste, la potencia y la escala que por la latencia bruta.
Esta arquitectura ilustra lo que se puede conseguir cuando las decisiones sobre infraestructura se basan en el comportamiento real de la carga de trabajo, y cómo las unidades de disco duro, cuando se utilizan de forma estratégica, pueden permitir operaciones eficaces, escalables y rentables a escala global.
El objetivo de la carga de trabajo en cuestión era permitir un acceso rápido y fiable a los datos de los comentarios de los usuarios durante la interacción con contenidos virales, un reto que rápidamente se vuelve complejo a gran escala. Pero el volumen y la volatilidad de la demanda lo convirtieron en algo fuera de lo común.
Cuando un contenido se vuelve viral, la interacción se dispara al instante. Miles o millones de usuarios pueden inundar un solo hilo en cuestión de minutos, dando «me gusta», respondiendo, actualizando y volviendo a publicar. El sistema debe ser capaz de soportar una avalancha rápida de lecturas y escrituras de objetos pequeños, con picos muy pronunciados y descensos igualmente rápidos. Y aunque el rendimiento es importante, solo aporta valor cuando los cuellos de botella del sistema permiten aprovecharlo.
Los arquitectos de la plataforma necesitaban dar soporte a:
La clasificación tradicional en niveles de caliente/frío resultó ineficaz para este tipo de patrón dinámico. Y aunque la memoria flash podría satisfacer las necesidades de rendimiento, su coste, desgaste y perfil energético la hacían insostenible en esta capa de la arquitectura.
Es una suposición común que las capas de almacenamiento en caché, especialmente para los sistemas orientados al usuario, deben estar basadas en flash para satisfacer las necesidades de rendimiento. Pero en este caso, el análisis detallado de la carga de trabajo reveló que el producción (la velocidad a la que se pueden leer o escribir los datos por segundo) y la concurrencia (la capacidad de manejar muchas solicitudes simultáneas) eran los factores limitantes y no la latencia a nivel de microsegundos. Las unidades de disco duro tienen un alto rendimiento en estas dimensiones, y en arquitecturas a nivel de sistema diseñadas para maximizar estas fortalezas, a través del paralelismo, las estrategias de almacenamiento en caché y la clasificación inteligente por niveles, pueden superar a las configuraciones basadas en flash para la misma carga de trabajo.
Al aprovechar esta combinación de puntos fuertes, el proveedor de la nube pudo:
En todas estas implementaciones, las unidades de disco duro empresariales ofrecen un coste de adquisición por terabyte considerablemente menor, actualmente más de 7 veces inferior al de las unidades SSD, según el análisis de Seagate de las investigaciones realizadas por IDC, TRENDFOCUS y Forward Insights. Esta diferencia puede influir significativamente en las decisiones arquitectónicas, especialmente cuando la eficiencia y la resistencia de la caché forman parte de la ecuación.
La arquitectura final implementó unidades de disco duro empresariales de baja capacidad de Seagate como capa de almacenamiento en caché persistente y las colocó entre una capa de aplicaciones primaria y una capa de nube basada en unidades de disco duro de alta capacidad. La configuración se construyó utilizando carcasas que el equipo ya tenía en uso en otras cargas de trabajo, lo que permitió una reutilización eficiente del sistema.
Así funciona:
Las unidades del nivel de almacenamiento en caché suelen funcionar dando prioridad al diámetro exterior de sus platos para obtener espacio de caché utilizable, optimizando el comportamiento de escritura y maximizando el rendimiento efectivo para el caso de uso.
Este diagrama de arquitectura ilustra cómo el almacenamiento en caché basado en unidades de disco duro, el almacenamiento profundo y los servicios de aplicaciones funcionan conjuntamente para gestionar los picos de datos virales de forma eficiente y rentable.
La implementación supuso mejoras significativas en el coste total de la infraestructura y la eficiencia energética, al tiempo que se mantuvieron las exigentes prestaciones de la carga de trabajo gracias a unidades diseñadas para ofrecer un rendimiento sostenido, resistencia a la escritura, disponibilidad de datos bajo presión e implementación a escala de flota.
La mayoría de las cargas de trabajo de inferencia y almacenamiento temporal de datos están más limitadas por el coste, la potencia y la escala que por la latencia bruta, lo que hace que las unidades de disco duro sean una opción práctica en el nivel arquitectónico adecuado.
En el momento de la publicación, el cliente estaba implementando activamente esta arquitectura de plataforma en zonas geográficas clave, con una evaluación continua de una implantación más amplia. Los primeros indicadores fueron muy positivos: las métricas de rendimiento de la caché se mantuvieron estables, la experiencia del usuario siguió siendo fluida y se mejoró el coste total de propiedad (TCO).
Si los resultados de la prueba piloto siguen siendo positivos, la plataforma podría ampliar este modelo de forma significativa, con volúmenes de implementación anuales potenciales que alcanzarían cantidades de unidades de seis cifras, lo que reflejaría una demanda de más de 6 EB al año y la confianza en las unidades de disco duro para ofrecer rendimiento y eficiencia a escala de flota.
No se trata solo de una optimización puntual, sino de un patrón emergente para mejorar el intercambio de imágenes, microblogs, vídeos y otros contenidos, en el que la concurrencia y la relevancia de los usuarios finales determinan los requisitos de infraestructura y permiten mejorar la rentabilidad de la plataforma.
El éxito de este diseño no se basa en un único avance, sino en tres principios fundamentales que resonarán en otros creadores de plataformas de IA:
Las unidades de disco duro no "ganaron" a las unidades flash en este caso, simplemente tenían más sentido. Así es como se alinean el rendimiento, el coste y la eficiencia operativa en un entorno real. En toda la infraestructura empresarial y en la nube, siguen prestando servicio a la gran mayoría de las cargas de trabajo de datos en las que el rendimiento, la eficiencia y la escala son los factores más importantes.
Para satisfacer las necesidades de rendimiento, las cargas de trabajo modernas requieren tanto capacidad de cálculo como almacenamiento escalables, especialmente porque el éxito de los modelos depende de su relevancia inmediata y continua para el usuario final.
A medida que la IA y otras cargas de trabajo modernas siguen dando forma al diseño de la infraestructura en todos los sectores, la cuestión no es si utilizar unidades de disco duro o flash. Se trata de cómo crear sistemas que reflejen el comportamiento real de la carga de trabajo, las limitaciones reales y las oportunidades reales de optimización.
Este proveedor líder mundial de servicios en la nube demostró que las unidades de disco duro no solo son relevantes, sino que son fundamentales para la evolución de las arquitecturas modernas a medida que crecen, ya que garantizan un acceso rápido a los datos y su disponibilidad incluso en momentos de máxima demanda.
Anonimizado por acuerdo mutuo de confidencialidad.