Jason Feist

Perspective

23 6월, 2026

Cloud

다중 계층 스토리지를 활용한 AI 추론 확장

Jason Feist

Perspective

빛나는 디지털 회로망 위에 떠 있는 추상적인 3D 큐브와 투명 블록들은 데이터 시스템이나 클라우드 컴퓨팅을 상징합니다.

추론 시스템의 비효율성 중 얼마나 많은 부분이 이미 처리한 컨텍스트를 다시 계산하는 데서 비롯되는지 고려해 보세요. 많은 AI 인프라 구축자들은 테스트 환경에서 컨텍스트를 다시 계산하는 비용이 상대적으로 미미하다는 것을 알고 있습니다. 프롬프트는 짧고, 세션은 제한적이며, 성과는 예측 가능합니다.

하지만 생산은 다릅니다. 규모가 커질수록 비효율성은 비용, 지연 시간 및 활용도 문제로 빠르게 이어집니다. 이것이 바로 우리가 SK하이닉스와 진행한 최신 연구 협력의 목표였습니다.

Seagate의 하드 드라이브 전문 기술과 SK hynix의 메모리 및 NAND 플래시 SSD 분야 선도적 기술력을 결합한 이번 연구는 추론 워크로드 확장에 따른 시스템 수준의 장단점을 분석하고, 다중 계층 SSD 및 하드 드라이브 아키텍처가 성공의 기반이 된다는 점을 보여줍니다.

주체적 변화로의 전환은 수학을 바꾼다.

표준적인 추론은 거래 중심적입니다. 요청이 들어오고, 답변이 나가고, 그러면 모든 것이 초기화됩니다. 에이전트 기반 워크로드는 그런 식으로 작동하지 않습니다. 그들은 국가를 발전시켜 나간다. 상호작용이 진행됨에 따라 맥락이 축적되고, 각각의 새로운 요청은 이전 요청을 기반으로 만들어집니다.

기존 챗봇과 비교했을 때 에이전트형 AI는 최대 15배 더 많은 토큰을 생성합니다.1 이는 시스템이 해야 할 일을 근본적으로 바꿉니다. 더 이상 단순히 새로운 토큰을 생성하는 것만이 아닙니다. 기존 작업물을 얼마나 유지하고 얼마나 처음부터 다시 구축할지 결정해야 합니다.

KV 캐시가 제약 조건이 되는 지점

키-값(KV) 캐시는 이전 토큰의 중간 표현을 저장하므로 모델은 모든 요청마다 이를 다시 계산하지 않습니다. 초반에는 잘 작동합니다. 제한 요소는 용량입니다.

NVIDIA H100 GPU는 80GB의 고대역폭 메모리를 탑재하고 있으며, 이는 약 1.2분의 KV 캐시를 저장하기에 충분합니다. CPU 메모리가 1TB인 서버를 사용하면 그 시간이 약 16분으로 늘어납니다. 두 방법 모두 세션이 몇 시간, 며칠 또는 몇 주 동안 진행되는 다중 턴 에이전트 워크플로를 해결하는 데에는 전혀 도움이 되지 않습니다.

해당 메모리가 가득 차면 시스템은 오래된 컨텍스트를 제거해야 합니다. 해당 컨텍스트가 다시 관련성을 갖게 되면(에이전트 기반 워크로드에서는 대개 그렇습니다), 시스템은 이를 다시 계산합니다. 이로 인해 첫 번째 토큰 생성 시간이 길어지고, 유용한 출력 증가 없이 GPU 사용률이 상승하며, 수요가 일정해 보일 때조차 비용이 변동하게 됩니다.

DRAM을 추가하면 시간을 벌 수는 있지만 근본적인 문제를 해결할 수는 없습니다. 이 시스템은 여전히 ​​메모리 용량의 제약을 받고 있으며, 작업 부하가 증가함에 따라 부담도 커집니다.

컨텍스트를 지속적인 상태로 취급

저는 바로 이 지점에서 접근 방식이 바뀌기 시작한다고 봅니다. KV 캐시를 메모리 제약 최적화로 취급하는 대신, 추론 주기 전반에 걸쳐 유지, 검색 및 재사용되는 영구적인 상태로 볼 수 있습니다.

실제로 이는 계층형 스토리지를 의미합니다. 자주 사용되는 컨텍스트는 GPU 근처의 메모리에 남아 있습니다. SSD는 빠른 데이터 검색 및 저장을 위한 버퍼 계층을 제공하는 반면, 하드 드라이브 집합은 객체 스토리지 시스템의 기반이 되어 올플래시 스토리지보다 훨씬 저렴한 비용으로 며칠 또는 몇 주간의 컨텍스트를 보존하는 데 필요한 내구성 있는 용량을 제공합니다.

진정한 변화는 KV 캐시가 더 이상 메모리에만 국한되지 않는다는 점입니다. 대신, 이제는 용량 확장이 가능한 계층형 스토리지 리소스 세트를 통해 관리할 수 있으므로 추론 시스템이 이전 작업을 더 많이 유지하고 소스에서의 재계산을 줄일 수 있습니다.

SK하이닉스와의 긴밀한 협력을 통해, 하이브리드 SSD 및 하드 드라이브 구성으로 NVIDIA Dynamo를 사용한 벤치마크 테스트를 진행했습니다. 우리는 인프라 팀에게 중요한 모든 지표, 즉 첫 토큰 획득 시간(TTFT), 처리량, GPU 활용률 및 비용에서 그 효과가 측정 가능하다는 것을 발견했습니다.

테스트 환경은 통제된 조건을 반영하지만, 실제 배포 환경에서는 세션 시간이 길어지고 데이터 세트 규모가 커짐에 따라 재계산이 더욱 빈번해지므로 그 영향이 훨씬 더 두드러집니다. 스토리지 계층별 비용 모델링 및 아키텍처 사양을 포함한 공동 작업의 전체 결과는 백서에 자세히 설명되어 있습니다.

TTFT가 35.24초(재생)에서 1.75초(하이브리드 저장)로 95% 감소한 것을 보여주는 막대 그래프입니다.

하이브리드 스토리지는 재생 방식에 비해 TTFT를 95% 향상시킵니다.

이 해결책은 스토리지가 추론 스택에 직접 통합된 경우에만 작동합니다. 이를 위해서는 CPU 병목 현상 없이 또는 새로운 지연 시간을 발생시키지 않고 대규모로 KV 캐시 데이터를 스토리지와 GPU 메모리 간에 이동시키기 위해 범용 하드웨어를 개조하는 것이 아니라, 목적에 맞게 설계된 인프라가 필요합니다.

AI를 위한 기록 시스템으로서의 객체 스토리지

저는 SK하이닉스와의 협업이 이미 진행 중인 더 광범위한 아키텍처적 변화를 반영한다고 생각합니다. 추론 엔진이 점점 더 상태를 유지하게 되면서 메모리와 저장소 사이의 경계가 모호해지기 시작합니다.

한때 일시적이었던 컨텍스트가 점차 지속적인 상태로 변모하며, 여러 계층에 걸쳐 관리되고 시간이 지나도 유지됩니다. 해당 모델에서 스토리지는 추론을 지원하는 역할뿐만 아니라 컨텍스트가 유지되고 액세스되는 방식을 정의하며, 현대 AI 인프라의 기록 시스템으로서 객체 스토리지로의 전환과 일맥상통합니다.

팀에서 대규모 추론 아키텍처 설계를 고려하고 있다면, 시스템 정의 시 이러한 장단점을 평가하는 데 필요한 벤치마크, 계층화 접근 방식 및 비용 모델을 설명하는 백서를 읽어보시기를 권장합니다.

여기에서 백서를 읽어보세요: KV 캐시 오프로딩을 위한 하이브리드 스토리지를 사용하여 대규모 추론을 활성화합니다.

1 네모트론 3 슈퍼 소개: 에이전트 추론을 위한 개방형 하이브리드 Mamba-Transformer MoE, NVIDIA, 2026년 3월 11일. 3페이지.

관련 항목:

Cloud
Black and white headshot photo of Jason Feist, Senior Vice President, Cloud Business, is shown.
Jason Feist

클라우드 비즈니스 부문 수석 부사장