Perspective

28 jun., 2025

CENTRO DE DATOS EMPRESARIAL

Cuando la escala exige rendimiento: Cómo un proveedor global de servicios en la nube satisface ambas necesidades con unidades de disco duro

Perspective

Dos manos sostienen un teléfono inteligente que muestra iconos como texto, pulgar hacia arriba, corazón y más, mostrando diversa actividad digital

A medida que los requisitos de multiusuario y alto rendimiento remodelan la infraestructura de datos, uno de los cambios más importantes está ocurriendo no solo en los clústeres de entrenamiento, sino también en los sistemas que responden en tiempo real a miles de millones de interacciones de usuarios.

En uno de los gigantes de Internet más grandes del mundo1, los arquitectos de infraestructura se propusieron recientemente reimaginar una carga de trabajo clave vinculada a la participación del usuario: la infraestructura de almacenamiento en caché que admite la actividad de comentarios en los soportes sociales (es decir, una capa de datos temporal que permite un acceso rápido al contenido solicitado con frecuencia). Había mucho en juego (volúmenes de tráfico crecientes, alta simultaneidad y una gran demanda de lectura/ escribir), al igual que la necesidad de reducir el costo y la energía a escala. El equipo identificó una solución estratégica pero poco convencional: un nivel de caché basado en la unidad de disco duro, construido sobre unidades empresa de baja capacidad de Seagate.

Algunos suponen que esta capa requiere flash, pero el análisis de la carga de trabajo mostró que las unidades de disco duro satisfacen las demandas de rendimiento a la vez que ofrecen beneficios significativos de costo y eficiencia, especialmente para las cargas de trabajo de inferencia y almacenamiento intermedio de datos, que suelen estar más limitadas por el costo, la potencia y la escala. que por la latencia bruta.

Esta arquitectura ilustra lo que es posible cuando las decisiones de infraestructura se basan en el comportamiento real de la carga de trabajo y cómo las unidades de disco duro, cuando se usan estratégicamente, pueden permitir operaciones de alto rendimiento, escalables y rentables a escala global.

Comprender las cargas de trabajo de datos: Ráfagas cortas, alta concurrencia

El objetivo de la carga de trabajo en cuestión era permitir un acceso rápido y fiable a los datos de los comentarios de los usuarios durante la interacción con el contenido viral, un desafío que rápidamente se vuelve complejo a escala. Pero el volumen y la volatilidad de la demanda hicieron que fuera todo menos normal.

Cuando una pieza de contenido se vuelve viral, la participación aumenta instantáneamente. De miles a millones de usuarios pueden inundar un solo hilo en cuestión de minutos: gustar, responder, actualizar y volver a publicar. El sistema debe admitir una rápida tormenta de lecturas y escrituras de objetos pequeños, alcanzando un pico brusco y luego cayendo con la misma rapidez. Y aunque el rendimiento es importante, solo proporciona valor cuando los cuellos de botella del sistema permiten que se utilice ese rendimiento.

Los arquitectos de la plataforma necesitaban admitir:

  • Volúmenes de acceso simultáneo extremadamente altos durante períodos cortos.
  • Tráfico pesado de lectura y escribir vinculado a la actividad del usuario.
  • Almacenamiento en caché de respuesta rápida para la experiencia del usuario, pero sin flash de baja latencia y siempre encendido.

La tradicional clasificación por niveles caliente/frío era ineficaz para este tipo de patrón dinámico. Y aunque la memoria flash podría satisfacer las necesidades de rendimiento, su coste, desgaste y perfil energético la hacían insostenible en esta capa de la arquitectura.

Rendimiento frente a latencia: Replanteamiento del almacenamiento en caché de datos para mejorar el rendimiento de la nube

Es una suposición común que las capas de almacenamiento en caché, especialmente para los sistemas orientados al usuario, deben estar basadas en flash para satisfacer las necesidades de rendimiento. Pero en este caso, el análisis detallado de la carga de trabajo reveló que la producción (la velocidad a la que se pueden leer o escribir los datos por segundo) y la concurrencia (la capacidad de manejar muchas solicitudes simultáneas) eran los factores limitantes y no la latencia a nivel de microsegundos. Las unidades de disco duro tienen un alto rendimiento en estas dimensiones, y en arquitecturas a nivel de sistema diseñadas para maximizar estas fortalezas, a través del paralelismo, las estrategias de almacenamiento en caché y la clasificación inteligente por niveles, pueden superar a las configuraciones basadas en flash para la misma carga de trabajo.

Al aprovechar esta combinación de puntos fuertes, el proveedor de la nube pudo:

  • Ofrezca un alto producción secuencial y simultáneo.
  • Gestione grandes volúmenes de datos durante picos intensos y de corta duración.
  • Operar a un menor costo y consumo de energía por terabyte, una consideración significativa a medida que los presupuestos térmicos y de energía del centro de datos son cada vez más limitados.

En estas implementaciones, las unidades de disco duro empresa ofrecen un coste de adquisición por terabyte drásticamente inferior, actualmente más de 7 veces inferior al de las unidades SSD, según el análisis de Seagate de la investigación realizada por IDC, TRENDFOCUS y Forward Insights. Este delta puede influir significativamente en las opciones de arquitectura, especialmente cuando la eficiencia y la resistencia de la caché son parte de la ecuación.

Almacenamiento en caché en unidades de disco duro: La solución para un acceso a datos escalable y eficiente

La arquitectura final implementó unidades de disco duro empresa de baja capacidad de Seagate como una capa de almacenamiento en caché persistente y las colocó entre una capa de aplicación principal y una capa de nube basada en unidad de disco duro de alta capacidad. La configuración se creó utilizando carcasas que el equipo ya tenía en uso en otras cargas de trabajo, lo que permitió una reutilización eficiente del sistema.

A continuación se explica cómo funciona:

  • Durante los picos de actividad, los datos de los comentarios se escriben directamente en el nivel de caché basado en la unidad de disco duro.
  • Esta capa de datos basada en unidad de disco duro proporciona el alto rendimiento y el rendimiento de alta simultaneidad necesarios para ofrecer un acceso rápido y repetible a escala global durante las ráfagas.
  • Una vez que la demanda disminuye, los datos almacenados en caché se vacían o migran a un nivel de almacenamiento más profundo integrado en unidades de mayor capacidad (por ejemplo, 24 TB o 30 TB).

Las unidades en el nivel de almacenamiento en caché normalmente funcionan priorizando los diámetros exteriores de sus platos para obtener espacio de caché utilizable, optimizando el comportamiento de escribir y maximizando el rendimiento efectivo para el caso de uso.

Equilibrio entre costo, potencia y rendimiento en la infraestructura de almacenamiento en la nube

El diagrama de flujo muestra cómo los comentarios entran en el módulo de caché, se mueven hacia y desde el nivel de caché y el almacenamiento en la nube, antes de pasar al sistema de procesamiento de comentarios.

Este diagrama de arquitectura ilustra cómo el almacenamiento en caché basado en unidad de disco duro, el almacenamiento profundo y los servicios de aplicaciones funcionan juntos para gestionar las ráfagas de datos virales de manera eficiente y rentable.

La implementación proporcionó mejoras significativas en el costo general de la infraestructura y la eficiencia energética, al tiempo que mantuvo las demandas de alto rendimiento de la carga de trabajo a través de unidades diseñadas para una producción sostenida, resistencia de escribir, disponibilidad de los datos bajo presión e implementación a escala de flota.

  • El uso de unidades de disco duro empresa de menor capacidad proporcionó el rendimiento necesario a un coste de adquisición por terabyte significativamente menor en comparación con las alternativas basadas en flash.
  • Se redujo el consumo de energía por unidad de producción, ya que las unidades se optimizaron para ráfagas de escribir sostenidas, no para IOPS en reposo. En general, las comparaciones a nivel de sistema también muestran que las unidades de disco duro pueden reducir el consumo de energía por terabyte hasta en un 70% en comparación con la memoria flash QLC.
  • El equipo pudo reutilizar su infraestructura existente, minimizando la inversión en nuevo hardware y acelerando los plazos de implementación.
  • Es importante destacar que el nivel de caché basado en la unidad de disco duro sigue cumpliendo o superando las expectativas de índice de aciertos, lo que permite una participación fluida de los comentarios incluso en los picos de tráfico más virales.

La mayoría de las cargas de trabajo de inferencia y preparación de datos están limitadas más por el costo, el consumo energético y la escalabilidad que por la latencia pura, lo que convierte a las unidades de disco duro en una opción práctica dentro del nivel arquitectónico adecuado.

Escalado del almacenamiento en caché en la nube: Del éxito piloto al estándar de plataforma global

En el momento de la publicación, el cliente estaba implementando activamente esta arquitectura de plataforma en geografías clave, con una evaluación continua de una implementación más amplia. Los primeros indicadores fueron sólidos: las métricas de rendimiento de la caché se mantuvieron estables, la experiencia del usuario siguió siendo receptiva y se mejoró el costo total de propiedad.

Si los resultados de la prueba piloto siguen manteniéndose, la plataforma puede expandir este modelo de manera significativa, con volúmenes de implementación anuales potenciales que alcanzan cantidades de unidad de seis cifras, lo que refleja la demanda de más de 6 EB por año y la confianza en las unidades de disco duro para ofrecer rendimiento y eficiencia a escala de flota.

No se trata de una optimización única, sino de un patrón emergente para crear un mejor intercambio de imágenes, microblogs, vídeos y otros contenidos en los que la simultaneidad y la relevancia del usuario final unidad los requisitos de la infraestructura y permiten mejorar la rentabilidad de la plataforma.

Lecciones clave para crear arquitecturas de almacenamiento en caché en la nube escalables y rentables

El éxito de este diseño no se basa en un solo avance, sino en tres principios fundamentales que repercutirán en otros creadores de plataformas de IA:

  • Diseño para la carga de trabajo no es una suposición, porque no todas las capas de alto rendimiento requieren flash.
  • Dimensiones clave del rendimiento —como la producción la simultaneidad, la disponibilidad de escribir, la velocidad de ingesta y la utilización del sistema— suelen ser más relevantes que la latencia bruta.
  • Los niveles de almacenamiento se pueden optimizar —incluso reutilizada— para satisfacer las demandas modernas de manera más eficiente.

Las unidades de disco duro no "ganaron" a la memoria flash aquí, simplemente tenían sentido. Esto es lo que parece alinear el rendimiento, el coste y la eficiencia operativa en un entorno del mundo real. En toda la infraestructura empresa y en la nube, continúan sirviendo a la gran mayoría de las cargas de trabajo de datos donde la producción, la eficiencia y la escala son lo más importante.

Reflexión final: Creación de una infraestructura en la nube que refleje las cargas de trabajo reales

Para satisfacer las necesidades de rendimiento, las cargas de trabajo modernas necesitan computación y almacenamiento escalables, especialmente porque el éxito del modelo depende de la relevancia inmediata y continua del usuario final.

A medida que la IA y otras cargas de trabajo modernas continúan dando forma al diseño de la infraestructura en todas las industrias, la pregunta no es si usar unidades de disco duro o flash. Se trata de cómo crear sistemas que reflejen el comportamiento real de la carga de trabajo, las limitaciones reales y las oportunidades reales de optimización.

Este proveedor líder mundial de servicios en la nube demostró que las unidades de disco duro no solo son relevantes, sino que son fundamentales para la forma en que las arquitecturas modernas evolucionan para escalar, lo que garantiza un acceso a los datos con capacidad de respuesta y disponibilidad incluso en los picos de demanda.

Notas al pie de página

Anonimizado por NDA mutuo.

Temas relacionados:

Cloud Data Center