16 3월, 2026
Seagate, NVIDIA 및 Supermicro의 공동 솔루션은 대규모 에이전트형 AI를 위한 다중 계층 스토리지를 제공합니다.
에이전트형 AI는 가치 창출의 차세대 핵심 영역으로 부상했습니다.
조직의 리더들은 계획, 실행, 그리고 시간이 지남에 따라 개선할 수 있는 AI 시스템, 즉 여러 단계의 워크플로우를 실행하고 중요한 비즈니스 성과를 제공하는 에이전트가 필요합니다.
하지만 복잡성과 쿼리량이 증가함에 따라, 이러한 에이전트가 의존하는 컨텍스트 유지의 한계를 무시하기 어려워지고 있습니다.
에이전트가 기억력을 잃을 수 있는 이유는 모델의 능력 부족 때문이 아니라, 사용 가능하고 지속적인 컨텍스트 메모리가 제한적이기 때문입니다.
AI 생태계에서는 이를 컨텍스트 벽(context wall)이라고 부릅니다.
컨텍스트 한계는 에이전트가 작업 컨텍스트를 다 소진하여 정보를 요약하거나, 삭제하거나, 이전에 접근했던 사실을 반복적으로 검색하고 재확인해야 하는 지점입니다. 이는 추론 속도를 늦추고 비용을 증가시키며 종종 품질을 저하시킵니다. 결과적으로 답변이 일관성이 없고, 논의의 흐름이 끊깁니다.
맥락의 장벽은 곧 비즈니스 문제로 이어진다. 다음과 같이 표시됩니다:
컨텍스트 장벽을 넘어서는 것은 모델 개선에만 국한된 것이 아닙니다. 핵심은 컨텍스트를 저장하고 제공하는 방식에 있습니다.
이러한 과제를 해결하기 위해 Seagate와 파트너사는 NVIDIA GTC에서 AI 워크로드의 컨텍스트를 확장하도록 설계된 상용화된 프로덕션 준비 완료 멀티티어 AI 스토리지 솔루션을 선보였습니다.
GTC에서 선보인 솔루션은 다음과 같은 요소들을 결합했습니다:
이 아키텍처는 맥락을 확장한다는 점뿐만 아니라 조직이 AI 추론 경제학에 대해 생각하는 방식을 재구성한다는 점에서 중요합니다. 에이전트 워크로드가 실제 운영 환경으로 전환되면 메모리 및 데이터 이동은 모델 품질뿐 아니라 성능, 비용 및 안정성에 있어 핵심적인 요소가 됩니다.
“Supermicro의 JBOF 플래시 계층과 Seagate의 하드 드라이브 계층을 결합하면 고성능을 제공하면서 추론 비용을 획기적으로 절감할 수 있습니다.”라고 Supermicro의 EMEA 사장 겸 매니징 디렉터이자 기술 및 AI 부문 수석 부사장인 Vik Malyala는 말했습니다. "이는 에이전트형 AI가 널리 도입되고 추론 작업량이 기하급수적으로 증가함에 따라 특히 중요합니다."
간과하기 쉬운 중요한 변화는 추론이 이제 연산 문제일 뿐만 아니라 메모리 문제이기도 하다는 점입니다. GPU는 강력하지만, 생산성을 높이려면 적절한 데이터가 적절한 시기에 적절한 속도로 적절한 비용으로 제공되어야 합니다.
에이전트는 더 많은 컨텍스트 저장 공간을 필요로 합니다. 프롬프트 외에도 다음 사항들을 추적해야 합니다.
이 모든 것을 즉시 접근 가능한 계층(GPU 메모리 또는 플래시 메모리)에 유지하려는 것은 마치 회사 전체를 프리미엄 당일 배송으로 운영하라고 고집하는 것과 같습니다. 몇 개의 소포에는 괜찮겠지만, 규모가 커지면 재정적으로 터무니없습니다.
성공적인 접근 방식은 다계층 영구 스토리지 아키텍처에 기반합니다.
스마트 AI 스택은 단기 기억과 장기 기억을 분리하고 각 계층을 최적의 기능에 맞게 활용합니다.
비즈니스 가치는 간단한 원칙에서 비롯됩니다. 모든 계층에 걸쳐 데이터 배치를 자동화하는 것입니다. GPU를 지속적으로 활용하고, 비용을 통제하며, 심층적인 컨텍스트를 유지합니다.
역사적으로 AI의 성능 등급과 용량 등급을 결합하는 것은 복잡했습니다. 이는 종종 복잡한 독점 파일 시스템, 과도한 CPU 오버헤드, 그리고 특히 데이터 양이 급증함에 따라 취약한 튜닝을 요구했습니다.
데이터 처리 장치(DPU) 덕분에 상황이 바뀌고 있습니다.
DPU는 데이터 이동을 오프로드하고 가속화할 수 있으므로 시스템이 바이트를 이동하기 위해 호스트 CPU 사이클을 낭비하지 않습니다. 이러한 시스템은 고속 네트워킹 및 스토리지 액세스 패턴을 지원하며, 캐싱, 계층화, 복원력 및 보안을 위한 표준 Linux 기반 서비스를 실행할 수 있습니다. 요약하자면, DPU는 다계층 AI 스토리지의 배포 및 확장성을 지원합니다.
바로 이것이 다단계 설계가 생산 규모에서 실현 가능한 이유입니다.
Seagate, Supermicro 및 NVIDIA의 아키텍처는 AI 컨텍스트를 비용 효율적으로 대규모로 확장하는 데 필요한 핵심 구성 요소를 통합합니다. 추론을 위한 GPU 컴퓨팅, 대용량 장기 컨텍스트 저장을 위한 하드 드라이브, 즉각적인 액세스를 위한 NVMe SSD, 그리고 계층 간 데이터 이동 및 캐싱을 조정하는 DPU가 있습니다.
그러한 조합은 고객이 가장 중요하게 생각하는 비즈니스 성과를 촉진합니다.
이러한 접근 방식은 고객에게 어떤 의미를 갖는가?
1. 에이전트 저장 메모리 성능이 향상되면 결과도 개선됩니다.
에이전트는 GPU 인접 저장 장치에 저장할 수 있는 양보다 훨씬 더 많은 과거 데이터에 접근할 수 있습니다. 이는 장기적인 관점에서의 추론, 더욱 풍부한 개인화, 그리고 맥락을 잊어버려 발생하는 오류 감소를 뒷받침합니다.
2. 확장 비용 절감 맥락
하드 드라이브는 장기 저장 장치용으로 테라바이트당 비용을 획기적으로 낮춰줍니다. 데이터 세트와 에이전트 기록이 지속적으로 증가하기 때문에 이는 중요한 문제입니다.
3. 차세대 최적화의 핵심은 효율성입니다.
조직은 성능(초당 토큰 수)뿐만 아니라 토큰당 전력 소비량 및 지속적인 GPU 사용률과 같은 지표를 포함한 효율성도 추적합니다. 다단계 설계는 불필요한 작업(재로딩, 재처리, 재검색)을 줄이고 GPU의 생산성을 유지하는 데 도움이 됩니다.
4. 인공지능 인프라의 미래 방향과의 일치
DPU 기반 데이터 플레인은 현대 AI 시스템 설계의 핵심 요소가 되고 있습니다. 이러한 접근 방식은 단순히 컴퓨팅 성능만을 추구하는 것이 아니라 확장 가능한 데이터 전송을 위한 시스템을 구축한다는 방향과 일맥상통합니다.
GTC에서 이 아키텍처는 실행 중인 시스템에서 시연되었습니다. GPU는 추론에, 하드 드라이브는 방대한 심층 컨텍스트 처리에, SSD는 즉각적인 접근에, DPU는 효율적인 데이터 이동 및 캐싱을 조율하는 데 사용되었습니다.
인공지능은 아직 성장 초기 단계에 있습니다. 이 시스템은 앞으로도 막대한 양의 데이터를 소비하고 생성할 것입니다. Seagate, Supermicro 및 NVIDIA는 함께 더욱 지속 가능하고 효율적이며 확장성을 고려한 아키텍처를 통해 미래를 구현하고 있습니다.
에이전트 확장에 성공하는 조직은 컨텍스트를 전략적 자산으로 간주하고, 해당 컨텍스트를 효율적으로 저장하고 제공할 수 있는 인프라를 구축하는 조직일 것입니다.
전문가와 상담하세요 Seagate가 조직이 에이전트 컨텍스트 벽을 확장할 수 있도록 지원하는 방법에 대해 알아보세요.
Seagate의 최고 시스템 기술자인 Mohamad El-Batal은 회사의 전략과 혁신 로드맵을 형성하는 데 도움을 줍니다.