Perspective

28 jun., 2025

CENTRO DE DATOS EMPRESARIAL

Cuando la escala exige rendimiento: Cómo un proveedor global de servicios en la nube satisface ambas necesidades con unidades de disco duro

Perspective

Dos manos sostienen un smartphone que muestra iconos como texto, pulgar hacia arriba, corazón y más, mostrando diversas actividades digitales

A medida que los requisitos de multiinquilino y alto rendimiento transforman la infraestructura de datos, uno de los cambios más trascendentales no solo se está produciendo en los clústeres de formación, sino también en los sistemas que responden en tiempo real a miles de millones de interacciones de los usuarios.

En uno de los gigantes de Internet más grandes del mundo1, los arquitectos de infraestructura se han propuesto recientemente replantearse una carga de trabajo clave relacionada con la interacción de los usuarios: la infraestructura de almacenamiento en caché que da soporte a la actividad de comentarios en las redes sociales (es decir, una capa de datos temporal que permite un acceso rápido al contenido solicitado con frecuencia). Había mucho en juego, como el aumento del tráfico, la alta concurrencia y la gran demanda de lectura/escritura, y también era importante reducir los costes y el consumo de energía a gran escala. El equipo identificó una solución estratégica, aunque poco convencional: un nivel de caché basado en unidades de disco duro, construido con unidades empresariales Seagate de baja capacidad.

Algunos suponen que esta capa requiere flash, pero el análisis de la carga de trabajo demostró que las unidades de disco duro satisfacen las exigencias de rendimiento y, al mismo tiempo, ofrecen importantes ventajas en términos de coste y eficiencia, especialmente para las cargas de trabajo de inferencia y almacenamiento temporal de datos, que suelen estar más limitadas por el coste, la potencia y la escala que por la latencia bruta.

Esta arquitectura ilustra lo que se puede conseguir cuando las decisiones sobre infraestructura se basan en el comportamiento real de la carga de trabajo, y cómo las unidades de disco duro, cuando se utilizan de forma estratégica, pueden permitir operaciones eficaces, escalables y rentables a escala global.

Comprender las cargas de trabajo de datos: Ráfagas cortas, alta concurrencia

El objetivo de la carga de trabajo en cuestión era permitir un acceso rápido y fiable a los datos de los comentarios de los usuarios durante la interacción con contenidos virales, un reto que rápidamente se vuelve complejo a gran escala. Pero el volumen y la volatilidad de la demanda lo convirtieron en algo fuera de lo común.

Cuando un contenido se vuelve viral, la interacción se dispara al instante. Miles o millones de usuarios pueden inundar un solo hilo en cuestión de minutos, dando «me gusta», respondiendo, actualizando y volviendo a publicar. El sistema debe ser capaz de soportar una avalancha rápida de lecturas y escrituras de objetos pequeños, con picos muy pronunciados y descensos igualmente rápidos. Y aunque el rendimiento es importante, solo aporta valor cuando los cuellos de botella del sistema permiten aprovecharlo.

Los arquitectos de la plataforma necesitaban dar soporte a:

  • Volúmenes de acceso simultáneo extremadamente altos durante períodos cortos.
  • Tráfico intenso de lectura y escritura vinculado a la actividad de los usuarios.
  • Almacenamiento en caché de respuesta rápida para mejorar la experiencia del usuario, pero sin necesidad de una memoria flash siempre activa y de baja latencia.

La clasificación tradicional en niveles de caliente/frío resultó ineficaz para este tipo de patrón dinámico. Y aunque la memoria flash podría satisfacer las necesidades de rendimiento, su coste, desgaste y perfil energético la hacían insostenible en esta capa de la arquitectura.

Rendimiento frente a latencia: Replanteamiento del almacenamiento en caché de datos para mejorar el rendimiento de la nube

Es una suposición común que las capas de almacenamiento en caché, especialmente para los sistemas orientados al usuario, deben estar basadas en flash para satisfacer las necesidades de rendimiento. Pero en este caso, el análisis detallado de la carga de trabajo reveló que el producción (la velocidad a la que se pueden leer o escribir los datos por segundo) y la concurrencia (la capacidad de manejar muchas solicitudes simultáneas) eran los factores limitantes y no la latencia a nivel de microsegundos. Las unidades de disco duro tienen un alto rendimiento en estas dimensiones, y en arquitecturas a nivel de sistema diseñadas para maximizar estas fortalezas, a través del paralelismo, las estrategias de almacenamiento en caché y la clasificación inteligente por niveles, pueden superar a las configuraciones basadas en flash para la misma carga de trabajo.

Al aprovechar esta combinación de puntos fuertes, el proveedor de la nube pudo:

  • Ofrecer un alto rendimiento secuencial y simultáneo.
  • Gestionar grandes volúmenes de datos durante picos intensos y de corta duración.
  • Operar con un menor coste y consumo energético por terabyte, lo cual es una consideración importante dado que los presupuestos energéticos y térmicos de los centros de datos son cada vez más limitados.

En todas estas implementaciones, las unidades de disco duro empresariales ofrecen un coste de adquisición por terabyte considerablemente menor, actualmente más de 7 veces inferior al de las unidades SSD, según el análisis de Seagate de las investigaciones realizadas por IDC, TRENDFOCUS y Forward Insights. Esta diferencia puede influir significativamente en las decisiones arquitectónicas, especialmente cuando la eficiencia y la resistencia de la caché forman parte de la ecuación.

Almacenamiento en caché en unidades de disco duro: La solución para un acceso a datos escalable y eficiente

La arquitectura final implementó unidades de disco duro empresariales de baja capacidad de Seagate como capa de almacenamiento en caché persistente y las colocó entre una capa de aplicaciones primaria y una capa de nube basada en unidades de disco duro de alta capacidad. La configuración se construyó utilizando carcasas que el equipo ya tenía en uso en otras cargas de trabajo, lo que permitió una reutilización eficiente del sistema.

Así funciona:

  • Durante los picos de actividad, los datos de los comentarios se escriben directamente en el nivel de caché basado en unidades de disco duro.o .
  • Esta capa de datos basada en unidades de disco duro proporciona el alto rendimiento y la alta concurrencia necesarios para ofrecer un acceso rápido y repetible a escala global durante los picos de actividad.
  • Una vez que la demanda disminuye, los datos almacenados en caché se eliminan o se migran a un nivel de almacenamiento más profundo basado en unidades de mayor capacidad (por ejemplo, 24 TB o 30 TB).

Las unidades del nivel de almacenamiento en caché suelen funcionar dando prioridad al diámetro exterior de sus platos para obtener espacio de caché utilizable, optimizando el comportamiento de escritura y maximizando el rendimiento efectivo para el caso de uso.

Equilibrio entre costo, potencia y rendimiento en la infraestructura de almacenamiento en la nube

El diagrama de flujo muestra cómo los comentarios entran en el módulo de caché, se mueven hacia y desde el nivel de caché y el almacenamiento en la nube, antes de pasar al sistema de procesamiento de comentarios.

Este diagrama de arquitectura ilustra cómo el almacenamiento en caché basado en unidades de disco duro, el almacenamiento profundo y los servicios de aplicaciones funcionan conjuntamente para gestionar los picos de datos virales de forma eficiente y rentable.

La implementación supuso mejoras significativas en el coste total de la infraestructura y la eficiencia energética, al tiempo que se mantuvieron las exigentes prestaciones de la carga de trabajo gracias a unidades diseñadas para ofrecer un rendimiento sostenido, resistencia a la escritura, disponibilidad de datos bajo presión e implementación a escala de flota.

  • El uso de unidades de disco duro empresariales de menor capacidad proporcionó el rendimiento necesario a un coste de adquisición por terabyte significativamente menor en comparación con las alternativas basadas en flash.
  • El consumo de energía por unidad de rendimiento disminuyó, ya que las unidades se optimizaron para ráfagas de escritura sostenidas, no para IOPS en reposo. En general, las comparaciones a nivel de sistema también muestran que las unidades de disco duro pueden reducir el consumo de energía por terabyte hasta en un 70 % en comparación con la memoria flash QLC.
  • El equipo pudo reutilizar su infraestructura existente, minimizando la inversión en nuevo hardware y acelerando los plazos de implementación.
  • Es importante destacar que el nivel de caché basado en unidades de disco duro sigue cumpliendo o superando las expectativas de tasa de aciertos, lo que permite una interacción fluida con los comentarios incluso durante los picos de tráfico más virales.

La mayoría de las cargas de trabajo de inferencia y almacenamiento temporal de datos están más limitadas por el coste, la potencia y la escala que por la latencia bruta, lo que hace que las unidades de disco duro sean una opción práctica en el nivel arquitectónico adecuado.

Escalado del almacenamiento en caché en la nube: Del éxito piloto al estándar de plataforma global

En el momento de la publicación, el cliente estaba implementando activamente esta arquitectura de plataforma en zonas geográficas clave, con una evaluación continua de una implantación más amplia. Los primeros indicadores fueron muy positivos: las métricas de rendimiento de la caché se mantuvieron estables, la experiencia del usuario siguió siendo fluida y se mejoró el coste total de propiedad (TCO).

Si los resultados de la prueba piloto siguen siendo positivos, la plataforma podría ampliar este modelo de forma significativa, con volúmenes de implementación anuales potenciales que alcanzarían cantidades de unidades de seis cifras, lo que reflejaría una demanda de más de 6 EB al año y la confianza en las unidades de disco duro para ofrecer rendimiento y eficiencia a escala de flota.

No se trata solo de una optimización puntual, sino de un patrón emergente para mejorar el intercambio de imágenes, microblogs, vídeos y otros contenidos, en el que la concurrencia y la relevancia de los usuarios finales determinan los requisitos de infraestructura y permiten mejorar la rentabilidad de la plataforma.

Lecciones clave para crear arquitecturas de almacenamiento en caché en la nube escalables y rentables

El éxito de este diseño no se basa en un único avance, sino en tres principios fundamentales que resonarán en otros creadores de plataformas de IA:

  • Diseñar para la carga de trabajo, no para la suposición, porque no todas las capas de alto rendimiento requieren flash.
  • Las dimensiones clave del rendimiento, como el rendimiento, la concurrencia, la disponibilidad de escritura, la velocidad de ingestión y la utilización del sistema, suelen ser más relevantes que la latencia bruta.
  • Los niveles de almacenamiento se pueden optimizar, e incluso reutilizar, para satisfacer las demandas actuales de manera más eficiente.

Las unidades de disco duro no "ganaron" a las unidades flash en este caso, simplemente tenían más sentido. Así es como se alinean el rendimiento, el coste y la eficiencia operativa en un entorno real. En toda la infraestructura empresarial y en la nube, siguen prestando servicio a la gran mayoría de las cargas de trabajo de datos en las que el rendimiento, la eficiencia y la escala son los factores más importantes.

Reflexión final: Creación de una infraestructura en la nube que refleje las cargas de trabajo reales

Para satisfacer las necesidades de rendimiento, las cargas de trabajo modernas requieren tanto capacidad de cálculo como almacenamiento escalables, especialmente porque el éxito de los modelos depende de su relevancia inmediata y continua para el usuario final.

A medida que la IA y otras cargas de trabajo modernas siguen dando forma al diseño de la infraestructura en todos los sectores, la cuestión no es si utilizar unidades de disco duro o flash. Se trata de cómo crear sistemas que reflejen el comportamiento real de la carga de trabajo, las limitaciones reales y las oportunidades reales de optimización.

Este proveedor líder mundial de servicios en la nube demostró que las unidades de disco duro no solo son relevantes, sino que son fundamentales para la evolución de las arquitecturas modernas a medida que crecen, ya que garantizan un acceso rápido a los datos y su disponibilidad incluso en momentos de máxima demanda.

Notas al pie

Anonimizado por acuerdo mutuo de confidencialidad.

Temas relacionados:

Cloud Data Center