23 jun., 2026
Considere en qué medida la ineficiencia de su sistema de inferencia proviene de volver a calcular el contexto que ya ha procesado. Muchos desarrolladores de infraestructuras de IA saben que, en entornos de prueba, el costo de volver a calcular el contexto es relativamente insignificante. Las instrucciones son breves, las sesiones son concisas y el rendimiento es predecible.
Pero la producción es diferente. A gran escala, la ineficiencia se acumula rápidamente y se traduce en problemas de costos, latencia y utilización. Esto es lo que nos propusimos abordar en nuestra última colaboración de investigación con SK hynix.
Esta investigación, que aúna la experiencia de Seagate en discos duros y el liderazgo de SK hynix en memoria y SSD flash NAND, explora las ventajas y desventajas a nivel de sistema de la escalabilidad de las cargas de trabajo de inferencia y demuestra cómo las arquitecturas de discos duros y SSD de múltiples niveles son fundamentales para el éxito.
La inferencia estándar es transaccional. Se recibe una solicitud, se envía una respuesta y se da por concluido el proceso. Las cargas de trabajo de gestión de agentes no funcionan de esa manera. Estas hacen avanzar al estado. El contexto se acumula a través de la interacción, y cada nueva solicitud se basa en la anterior.
En comparación con los chatbots convencionales, la IA con capacidad de gestión de agentes genera hasta 15 veces más tokens1, lo que cambia fundamentalmente lo que el sistema tiene que hacer. Ya no se trata solo de generar nuevos tokens. Debe decidir cuánto trabajo previo conservar y cuánto debe reconstruir desde cero.
La caché de clave-valor (KV) almacena representaciones intermedias de tokens anteriores, por lo que el modelo no las recalcula en cada solicitud. Al principio, funciona bien. La limitación es la capacidad.
Una GPU NVIDIA H100 cuenta con 80 GB de memoria de alto ancho de banda, suficiente para almacenar aproximadamente 1,2 minutos de caché KV. Un servidor con 1 TB de memoria de CPU extiende ese tiempo a unos 16 minutos. Ninguna de las dos opciones se acerca a abordar un flujo de trabajo de agentes de múltiples turnos, donde las sesiones se extienden durante horas, días o semanas.
Cuando esa memoria se llene, el sistema deberá eliminar el contexto más antiguo. Cuando ese contexto vuelve a ser relevante (y en las cargas de trabajo que requieren agentes, suele serlo), el sistema lo vuelve a calcular. Esto da como resultado un aumento en el tiempo para obtener el primer token, un incremento en la utilización de la GPU sin ningún aumento en la producción útil y costos variables incluso cuando la demanda parece estable.
Agregar más memoria DRAM da tiempo, pero no resuelve el problema de fondo. El sistema sigue estando limitado por la memoria y la presión aumenta a medida que se incrementa la carga de trabajo.
Aquí es donde veo que el enfoque empieza a cambiar. En lugar de tratar la caché KV como una optimización limitada por la memoria, puede considerarse como un estado persistente que se conserva, recupera y reutiliza a lo largo de los ciclos de inferencia.
En la práctica, eso significa almacenamiento por niveles. El contexto activo permanece en la memoria, cerca de la GPU. Las unidades SSD proporcionan una capa de almacenamiento intermedio para la recuperación y la ubicación rápida de datos, mientras que las flotas de discos duros sustentan los sistemas de almacenamiento de objetos que ofrecen la capacidad duradera necesaria para conservar días o semanas de contexto a una fracción del coste de las soluciones totalmente flash.
El verdadero cambio radica en que la caché KV ya no se limita a la memoria. En cambio, ahora se puede gestionar mediante un conjunto escalable de recursos de almacenamiento que permiten escalar la capacidad, lo que permite a los sistemas de inferencia conservar más trabajo previo y reducir los nuevos cálculos en su origen.
En estrecha colaboración con SK hynix, realizamos pruebas de rendimiento utilizando NVIDIA Dynamo con una configuración híbrida de SSD y disco duro. Descubrimos que el impacto era medible en todas las métricas importantes para los equipos de infraestructura: tiempo hasta el primer token (TTFT), rendimiento, utilización de la GPU y costo.
Si bien el entorno de prueba refleja condiciones controladas, el impacto es aún más pronunciado en implementaciones del mundo real, donde las sesiones más largas y los conjuntos de datos más grandes amplifican el recálculo. Los resultados completos de nuestro trabajo conjunto, como la modelización de costos en todos los niveles de almacenamiento y las especificaciones de arquitectura, se detallan en el informe técnico.
El almacenamiento híbrido proporciona una mejora del 95 % en el TTFT en comparación con la regeneración.
Esta solución solo funciona cuando el almacenamiento se integra directamente en la pila de inferencia. Para ello, transferir datos de caché KV entre el almacenamiento y la memoria de la GPU sin cuellos de botella en la CPU a gran escala ni introducir nueva latencia requiere una infraestructura diseñada específicamente para este fin, no la adaptación de hardware de propósito general.
Creo que nuestra colaboración con SK hynix refleja un cambio arquitectónico más amplio que ya está en marcha. A medida que los motores de inferencia se vuelven más dependientes del estado, la frontera entre la memoria y el almacenamiento comienza a desdibujarse.
Lo que antes era un contexto transitorio se está convirtiendo cada vez más en un estado persistente, gestionado a través de diferentes niveles y conservado a lo largo del tiempo. En ese modelo, el almacenamiento no solo sirve de soporte para la inferencia, sino que define cómo se retiene y se accede al contexto, en consonancia con el cambio hacia el almacenamiento de objetos como sistema de registro para la infraestructura de IA moderna.
Si su equipo está tomando decisiones sobre la arquitectura para la inferencia a gran escala, le recomiendo que lea el documento técnico, que describe los puntos de referencia, el enfoque de niveles y el modelo de costos necesarios para evaluar estas compensaciones a medida que define su sistema.
Lea el documento técnico aquí: Habilitar la inferencia a gran escala con almacenamiento híbrido para la descarga de caché KV.
1 Presentamos Nemotron 3 Super: Un modelo de experiencia híbrido abierto Mamba-Transformer para razonamiento para agentes, NVIDIA, 11 de marzo de 2026. Página 3.
Vicepresidente sénior, Negocio en la Nube