Cuando la escala exige rendimiento: Cómo un proveedor global de servicios en la nube satisface ambas necesidades con unidades de disco duro
28 jun., 2025
A medida que los requisitos de multiusuario y alto rendimiento remodelan la infraestructura de datos, uno de los cambios más importantes está ocurriendo no solo en los clústeres de entrenamiento, sino también en los sistemas que responden en tiempo real a miles de millones de interacciones de usuarios.
En uno de los gigantes de Internet más grandes del mundo1, los arquitectos de infraestructura se propusieron recientemente reimaginar una carga de trabajo clave vinculada a la participación del usuario: la infraestructura de almacenamiento en caché que admite la actividad de comentarios en los soportes sociales (es decir, una capa de datos temporal que permite un acceso rápido al contenido solicitado con frecuencia). Había mucho en juego (volúmenes de tráfico crecientes, alta simultaneidad y una gran demanda de lectura/ escribir), al igual que la necesidad de reducir el costo y la energía a escala. El equipo identificó una solución estratégica pero poco convencional: un nivel de caché basado en la unidad de disco duro, construido sobre unidades empresa de baja capacidad de Seagate.
Algunos suponen que esta capa requiere flash, pero el análisis de la carga de trabajo mostró que las unidades de disco duro satisfacen las demandas de rendimiento a la vez que ofrecen beneficios significativos de costo y eficiencia, especialmente para las cargas de trabajo de inferencia y almacenamiento intermedio de datos, que suelen estar más limitadas por el costo, la potencia y la escala. que por la latencia bruta.
Esta arquitectura ilustra lo que es posible cuando las decisiones de infraestructura se basan en el comportamiento real de la carga de trabajo y cómo las unidades de disco duro, cuando se usan estratégicamente, pueden permitir operaciones de alto rendimiento, escalables y rentables a escala global.
El objetivo de la carga de trabajo en cuestión era permitir un acceso rápido y fiable a los datos de los comentarios de los usuarios durante la interacción con el contenido viral, un desafío que rápidamente se vuelve complejo a escala. Pero el volumen y la volatilidad de la demanda hicieron que fuera todo menos normal.
Cuando una pieza de contenido se vuelve viral, la participación aumenta instantáneamente. De miles a millones de usuarios pueden inundar un solo hilo en cuestión de minutos: gustar, responder, actualizar y volver a publicar. El sistema debe admitir una rápida tormenta de lecturas y escrituras de objetos pequeños, alcanzando un pico brusco y luego cayendo con la misma rapidez. Y aunque el rendimiento es importante, solo proporciona valor cuando los cuellos de botella del sistema permiten que se utilice ese rendimiento.
Los arquitectos de la plataforma necesitaban admitir:
La tradicional clasificación por niveles caliente/frío era ineficaz para este tipo de patrón dinámico. Y aunque la memoria flash podría satisfacer las necesidades de rendimiento, su coste, desgaste y perfil energético la hacían insostenible en esta capa de la arquitectura.
Es una suposición común que las capas de almacenamiento en caché, especialmente para los sistemas orientados al usuario, deben estar basadas en flash para satisfacer las necesidades de rendimiento. Pero en este caso, el análisis detallado de la carga de trabajo reveló que la producción (la velocidad a la que se pueden leer o escribir los datos por segundo) y la concurrencia (la capacidad de manejar muchas solicitudes simultáneas) eran los factores limitantes y no la latencia a nivel de microsegundos. Las unidades de disco duro tienen un alto rendimiento en estas dimensiones, y en arquitecturas a nivel de sistema diseñadas para maximizar estas fortalezas, a través del paralelismo, las estrategias de almacenamiento en caché y la clasificación inteligente por niveles, pueden superar a las configuraciones basadas en flash para la misma carga de trabajo.
Al aprovechar esta combinación de puntos fuertes, el proveedor de la nube pudo:
En estas implementaciones, las unidades de disco duro empresa ofrecen un coste de adquisición por terabyte drásticamente inferior, actualmente más de 7 veces inferior al de las unidades SSD, según el análisis de Seagate de la investigación realizada por IDC, TRENDFOCUS y Forward Insights. Este delta puede influir significativamente en las opciones de arquitectura, especialmente cuando la eficiencia y la resistencia de la caché son parte de la ecuación.
La arquitectura final implementó unidades de disco duro empresa de baja capacidad de Seagate como una capa de almacenamiento en caché persistente y las colocó entre una capa de aplicación principal y una capa de nube basada en unidad de disco duro de alta capacidad. La configuración se creó utilizando carcasas que el equipo ya tenía en uso en otras cargas de trabajo, lo que permitió una reutilización eficiente del sistema.
A continuación se explica cómo funciona:
Las unidades en el nivel de almacenamiento en caché normalmente funcionan priorizando los diámetros exteriores de sus platos para obtener espacio de caché utilizable, optimizando el comportamiento de escribir y maximizando el rendimiento efectivo para el caso de uso.
Este diagrama de arquitectura ilustra cómo el almacenamiento en caché basado en unidad de disco duro, el almacenamiento profundo y los servicios de aplicaciones funcionan juntos para gestionar las ráfagas de datos virales de manera eficiente y rentable.
La implementación proporcionó mejoras significativas en el costo general de la infraestructura y la eficiencia energética, al tiempo que mantuvo las demandas de alto rendimiento de la carga de trabajo a través de unidades diseñadas para una producción sostenida, resistencia de escribir, disponibilidad de los datos bajo presión e implementación a escala de flota.
La mayoría de las cargas de trabajo de inferencia y preparación de datos están limitadas más por el costo, el consumo energético y la escalabilidad que por la latencia pura, lo que convierte a las unidades de disco duro en una opción práctica dentro del nivel arquitectónico adecuado.
En el momento de la publicación, el cliente estaba implementando activamente esta arquitectura de plataforma en geografías clave, con una evaluación continua de una implementación más amplia. Los primeros indicadores fueron sólidos: las métricas de rendimiento de la caché se mantuvieron estables, la experiencia del usuario siguió siendo receptiva y se mejoró el costo total de propiedad.
Si los resultados de la prueba piloto siguen manteniéndose, la plataforma puede expandir este modelo de manera significativa, con volúmenes de implementación anuales potenciales que alcanzan cantidades de unidad de seis cifras, lo que refleja la demanda de más de 6 EB por año y la confianza en las unidades de disco duro para ofrecer rendimiento y eficiencia a escala de flota.
No se trata de una optimización única, sino de un patrón emergente para crear un mejor intercambio de imágenes, microblogs, vídeos y otros contenidos en los que la simultaneidad y la relevancia del usuario final unidad los requisitos de la infraestructura y permiten mejorar la rentabilidad de la plataforma.
El éxito de este diseño no se basa en un solo avance, sino en tres principios fundamentales que repercutirán en otros creadores de plataformas de IA:
Las unidades de disco duro no "ganaron" a la memoria flash aquí, simplemente tenían sentido. Esto es lo que parece alinear el rendimiento, el coste y la eficiencia operativa en un entorno del mundo real. En toda la infraestructura empresa y en la nube, continúan sirviendo a la gran mayoría de las cargas de trabajo de datos donde la producción, la eficiencia y la escala son lo más importante.
Para satisfacer las necesidades de rendimiento, las cargas de trabajo modernas necesitan computación y almacenamiento escalables, especialmente porque el éxito del modelo depende de la relevancia inmediata y continua del usuario final.
A medida que la IA y otras cargas de trabajo modernas continúan dando forma al diseño de la infraestructura en todas las industrias, la pregunta no es si usar unidades de disco duro o flash. Se trata de cómo crear sistemas que reflejen el comportamiento real de la carga de trabajo, las limitaciones reales y las oportunidades reales de optimización.
Este proveedor líder mundial de servicios en la nube demostró que las unidades de disco duro no solo son relevantes, sino que son fundamentales para la forma en que las arquitecturas modernas evolucionan para escalar, lo que garantiza un acceso a los datos con capacidad de respuesta y disponibilidad incluso en los picos de demanda.
Anonimizado por NDA mutuo.