21 5월, 2026
여기 Seagate에서는 저와 엔지니어링 팀이 세계 최대 규모의 클라우드 및 AI 인프라 구축 기업들과 정기적으로 만나고 있습니다.
우리는 고객에게 엑사바이트급의 고용량 하드 드라이브를 공급할 뿐만 아니라, 고객과 긴밀히 협력하여 스토리지 아키텍처를 설계하는 데 도움을 드립니다.
이러한 파트너십을 통해 저는 하이퍼스케일 스토리지 관련 의사 결정이 어떻게 이루어지는지 가장 가까이에서 지켜볼 수 있었습니다. 공통점은 분명합니다. 성능, 효율성 및 데이터 가치를 극대화하려면 경제성, 소프트웨어 오케스트레이션 및 하드웨어 기능이 조화를 이루어야 합니다.
AI 워크로드가 데이터 세트 크기, 액세스 빈도, 컨텍스트 창, 병렬 처리, 보존 시간 및 공유 스토리지 시스템에 대한 요구 사항을 지속적으로 증가시킴에 따라 이러한 정렬은 더욱 중요해졌습니다.
이러한 규모의 변화는 "기본 저장 장치"의 의미를 근본적으로 바꾸어 놓았습니다.
역사적으로 기본 저장 장치는 컴퓨팅 장치 가까이에 위치한 긴밀하게 연결된 블록 또는 파일 시스템을 의미했습니다. 하지만 클라우드 및 AI 환경에서는 기본 스토리지가 점점 더 소프트웨어 정의 방식의 글로벌 분산 아키텍처로 정의되고 있으며, 이러한 아키텍처는 객체 스토리지를 워크로드 전반에 걸쳐 대규모 데이터를 보존하고 제공하는 영구적인 기록 시스템으로 취급합니다.
이러한 재정의가 어떻게 이루어졌는지 더 잘 이해하기 위해, 기업용 스토리지의 초기 설계 원칙을 살펴보겠습니다.
수십 년 동안 이 생태계는 POSIX(Portable Operating System Interface)라는 공통 표준에 따라 운영되었습니다. 지역화된 인프라가 주를 이루던 시대에 구상된 POSIX는 개발자들에게 데이터와 상호 작용하는 예측 가능한 모델을 제공했습니다.
이 시스템은 쓰기 후 읽기 일관성, 동기식 파일 잠금 및 계층적 디렉터리 구조를 강조했습니다. 단일 기기 또는 로컬 클러스터의 경우 매우 효과적이었으며, 오늘날에도 많은 기업 및 애플리케이션 환경에서 여전히 중요한 요소입니다.
하지만 클라우드 모델이 등장하면서 주요한 절충점이 바뀌었습니다. 클라우드 규모 시스템은 POSIX 우선 시스템이 원래 설계되었던 대상과는 근본적으로 다른 규모, 배포 모델 및 비용 구조를 위해 구축되었습니다.
분산 환경에서 POSIX 스타일 구현은 디렉터리 의미 체계, 파일 잠금 및 제자리 업데이트를 유지하기 위해 노드 간에 상당한 조정이 필요할 수 있습니다.
클라우드 플랫폼은 막대한 확장성이 필요했고, 결국 수십에서 수백 엑사바이트에 이르는 규모로 확장되었습니다. 이러한 환경에서 긴밀하게 연결된 설계로 인한 조정 오버헤드가 지연을 유발하고 성장에 실질적인 제약을 가하기 시작했습니다.
훨씬 더 큰 데이터 세트, 체크포인트, 토큰 처리, 추론 및 고도로 병렬화된 데이터 파이프라인을 요구하는 현대 AI 워크로드에서 이러한 압력은 더욱 심화되었습니다.
구글 클라우드 스토리지(GCS)와 콜로서스부터 마이크로소프트 애저 블롭, 아마존 S3, 메타의 테크토닉에 이르기까지 업계 전반에 걸쳐 클라우드 플랫폼은 전 세계적으로 분산된 데이터와 하이퍼스케일 워크로드를 위해 특별히 설계된 소프트웨어 정의 아키텍처를 채택했으며, 규모와 요구 사항이 발전함에 따라 시간이 지남에 따라 이를 개선해 왔습니다.
이 새로운 패러다임에서는 소프트웨어가 오케스트레이션, 복원력 및 데이터 흐름에 대한 더 많은 책임을 맡아 기본 스토리지 매체를 최대한 효율적으로 사용할 수 있도록 합니다.
위에서 언급한 클라우드 아키텍처와 같은 환경에서 하드 드라이브는 대규모 데이터 저장을 위한 기반입니다.
이는 용량의 경제적 측면과 고밀도 기록의 물리적 측면이 지속적으로 유지됨을 반영합니다. 최신 고용량 하드 드라이브는 면적 밀도를 계속 높이고 엑사바이트 규모의 스토리지를 가능하게 하기 위해 SMR(Shingled Magnetic Recording) 및 HAMR(Heat-Assisted Magnetic Recording)과 같은 기술을 통합합니다.
이러한 규모에서는 하드 드라이브 플릿이 시스템 기록 역할을 하며, 다른 저장 기술로는 따라올 수 없는 내구성, 비용 효율성 및 용량 밀도를 제공합니다.
대형 데이터 센터의 엑사바이트 중 87%가 하드 드라이브에 저장되는 데에는 이유가 있습니다1!
클라우드 환경이 지속적으로 확장되고 AI 워크로드가 더 많은 양의 데이터를 소비, 생성, 저장 및 재사용함에 따라 이러한 이점은 더욱 중요해집니다.
하지만 이러한 장점들은 소프트웨어 아키텍처가 고용량 디스크의 강점에 맞춰 설계될 때에만 온전히 실현될 수 있습니다.
특히 단편화, 무작위, 제자리 업데이트를 강조하는 긴밀하게 연결된 분산 파일 시스템 모델 내의 기존 POSIX 액세스 패턴은 극단적인 규모에서 이러한 강점과 항상 잘 부합하는 것은 아닙니다.
최신 소프트웨어 정의 클라우드 플랫폼은 하드 드라이브를 중심으로 스토리지 스택을 설계하여 이러한 문제를 해결했습니다. 이를 통해 순차적이고 처리량이 높은 데이터 흐름을 우선시하는 동시에 확장 가능한 운영 경제성을 지원할 수 있습니다.
Amazon S3의 경우 500조 개의 객체를 저장하고 초당 2억 건의 요청을 처리하는 서비스입니다. 최근 AWS re:Invent 기조연설2에서는 클라우드 스토리지 성능의 비결은 하드 드라이브의 기능을 최적화하는 소프트웨어를 작성하는 것이라고 강조했습니다. 이 발표에서는 하드 드라이브를 "엔지니어링의 경이로움"이라고 설명했습니다.
현대 클라우드 아키텍처는 다른 시대에 맞춰 설계된 소프트웨어 추상화에 드라이브를 억지로 맞추는 대신, 최신 고밀도 하드 드라이브의 장점을 보완하도록 설계되었습니다.
이러한 엔지니어링 설계는 여러 형태를 띠었지만, 주요 클라우드 플랫폼 전반에 걸쳐 일반적으로 네 가지 아키텍처 원칙을 반영합니다. 이 두 사례는 클라우드 스토리지가 데이터 흐름, 메타데이터, 복원력 및 수집 동작 관리 방식에서 소프트웨어 정의 방식으로 점차 발전하고 있음을 보여줍니다.
GCS 및 Amazon S3와 같은 서비스는 객체 불변성과 버전 관리 업데이트를 지원하도록 설계되었습니다. 데이터가 객체 저장소에 기록되면, 일반적으로 업데이트는 기존 객체를 제자리에서 수정하는 대신 새 버전의 객체를 기록하는 방식으로 처리됩니다.
클라우드 규모 아키텍처는 임의적인 제자리 바이너리 쓰기의 필요성을 줄임으로써 디스크 작업 부하를 대규모 순차 데이터 흐름으로 더 많이 전환합니다. 이는 대용량 드라이브가 대규모 환경에서 처리량과 효율성을 제공하는 방식과 더 잘 부합합니다. 체크포인트, 데이터셋 이동, 병렬 파이프라인 등으로 인해 공유 스토리지 시스템에 지속적인 부담이 가해지는 AI 워크로드 환경에서는 이러한 이점이 더욱 중요해집니다.
기존 POSIX 환경에서 스토리지 시스템은 파일 메타데이터와 파일 페이로드를 밀접하게 연관된 방식으로 관리하는 경우가 많습니다. 하이퍼스케일 클라우드 플랫폼은 메타데이터 서비스를 용량 스토리지와 분리함으로써 이러한 상황을 변화시켰습니다. 추적 및 조정 작업의 대부분을 디스크 자체에 부담을 주는 대신 더 빠르고 확장 가능한 제어 계층으로 옮겼습니다.
Google Cloud의 Colossus는 이러한 작업의 상당 부분을 메모리 상주 서비스로 옮기는 반면, Meta의 Tectonic은 분산 파일 시스템 모델 내의 메타데이터를 수평 확장이 가능한 키-값 저장소에서 실행되는 상태 비저장 마이크로서비스로 분리합니다. 그 결과, 기본 하드 드라이브에 대한 구조적 오버헤드가 줄어들고, 더 많은 기회를 통해 대규모로 고밀도의 효율적인 용량을 제공할 수 있게 됩니다.
세 번째 원칙은 대규모 스토리지 시스템의 복원력과 효율성을 높이기 위해 소거 코딩과 광범위한 데이터 분산을 사용하는 것입니다.
클라우드 아키텍처는 소거 코딩과 광범위한 데이터 분산을 통해 이러한 민감도를 줄입니다. 이러한 시스템은 객체를 여러 디스크에 분산시킴으로써 국소적인 핫스팟을 격리하고, 짧은 지연 시간 동안에도 데이터 제공을 지속하며, 필요에 따라 재구성할 수 있습니다. 이를 통해 스토리지 계층의 복원력이 향상되고 클라우드 및 AI 워크로드가 혼합된 환경에서도 처리량을 유지할 수 있습니다.
네 번째 원칙은 데이터가 저장 매체에 도달하기 전에 어떻게 준비되는지에 관한 것입니다.
예측 불가능한 애플리케이션 트래픽과 고밀도 하드 드라이브가 가장 잘 처리하는 구조화된 환경 간의 격차를 해소하기 위해 최신 아키텍처는 플래시 또는 메모리를 통합하여 데이터 수집을 버퍼링하고 데이터 배치를 최적화하는 다계층 데이터 경로를 사용합니다.
플래시 계층은 API 트래픽과 애플리케이션 쓰기에서 발생하는 가변적인 도착률을 흡수합니다. 이 기능은 들어오는 데이터를 저장 매체로 이동하기 전에 준비하고 구성하여 백그라운드 프로세스가 긴 순차적 과정을 통해 하드 드라이브 어레이에 데이터를 저장할 수 있도록 합니다.
데이터 수집, 체크포인트 생성 및 데이터셋 이동이 특히 급증할 수 있는 AI 워크로드 환경에서는 이러한 버퍼링 역할이 더욱 중요해집니다. 이는 낮은 지연 시간의 데이터 수집과 효율적인 하드 드라이브 활용을 모두 유지하는 데 도움이 되기 때문입니다.
그림. 1 기존 POSIX 스토리지 소프트웨어와 클라우드 네이티브 스토리지 소프트웨어를 비교하여 하드 드라이브 중심 스토리지 아키텍처의 장점을 극대화하는 방법을 살펴봅니다.
이러한 건축적 변화들이 종합적으로 작용하여 주요 저장 장치의 정의 방식이 완전히 바뀌었습니다. 역사적으로 "기본 스토리지"는 종종 컴퓨팅 장치에 밀접하게 연결된 고가의 고가용성 블록 또는 파일 시스템을 지칭했습니다. 객체 스토리지는 일반적으로 아카이브, 백업 또는 보조 데이터를 위한 하위 계층 저장소로 취급되었습니다.
오늘날 많은 클라우드 네이티브 아키텍처는 기본 스토리지를 보다 광범위하게 정의합니다. 즉, 상태 비저장 컴퓨팅과 글로벌 객체 저장소를 결합한 형태입니다. S3, Azure, GCS와 같은 플랫폼에 구축된 데이터 레이크는 대규모 분석, 클라우드 애플리케이션 및 AI 워크플로우를 위한 기록 시스템 역할을 점점 더 많이 수행하고 있습니다.
이 모델에서는 기본 스토리지가 점점 더 소프트웨어 정의 방식으로 바뀌고 있으며, 객체 서비스, 메타데이터 계층, 플래시 버퍼링 및 고용량 하드 드라이브가 하나의 통합 시스템으로 함께 작동합니다.
컴퓨팅 인스턴스는 종종 더 탄력적이고 상태 비저장 방식으로 처리되며, 객체 계층에서 데이터를 가져와 처리한 다음 결과를 동일한 공유 환경에 다시 기록합니다.
지난 10년간 클라우드 아키텍처에서, 그리고 최근에는 AI 워크플로우에서 객체 스토리지가 더욱 중요해짐에 따라 또 다른 중요한 추세가 나타났습니다. 바로 고성능 병렬 파일 시스템입니다.
Lustre, Weka, VAST와 같은 시스템은 긴밀하게 연결된 워크로드의 성능을 극대화하도록 설계되었으며, 체크포인트, 조정 및 고처리량 데이터 액세스를 지원하기 위해 POSIX 호환 인터페이스를 제공하는 경우가 많습니다.
동시에 객체 스토리지 플랫폼은 지속적으로 발전해 왔으며, 전 세계적인 확장성을 최적화하는 동시에 AI 및 데이터 집약적인 워크로드의 증가를 지원하기 위해 성능을 향상시켜 왔습니다.
대규모 클라우드 및 AI 환경에서는 이러한 접근 방식들이 수렴되고 있습니다. 고성능 파일 시스템은 종종 객체 스토리지 백엔드 위에 계층화되거나 통합되어 활성 작업 세트에 대한 성능과 시스템 레코드로서 객체 스토리지의 확장성 및 경제성을 결합합니다.
이러한 수렴은 보다 광범위한 아키텍처적 변화를 반영합니다. 즉, 최신 시스템은 파일과 객체 중 하나를 선택하는 대신 둘을 결합합니다. 이 방식은 폴더, 네임스페이스 및 익숙한 파일 동작의 편리함을 유지하면서 객체 스토리지의 확장성 이점을 그대로 제공합니다.
이러한 변화들을 종합적으로 살펴보면, 클라우드 및 AI 아키텍처는 POSIX 우선 모델이 원래 최적화하도록 설계된 것과는 다른 소프트웨어 및 시스템 절충점을 요구한다는 더 광범위한 결론을 도출할 수 있습니다.
그러한 절충으로 인해 시스템 구축의 기반이 되는 하드 드라이브 플릿의 사용을 최적화하는 소프트웨어 설계의 중요성이 더욱 커졌습니다. 그런 의미에서 클라우드 및 AI 워크로드는 스토리지 아키텍처를 변경했을 뿐만 아니라 기본 스토리지 자체를 재정의했습니다.
인프라 구축 담당자에게 중요한 점은 분명합니다. 최신 시스템을 위한 설계는 기본 스토리지가 로컬 운영 체제 파일 트리에 깔끔하게 매핑되어야 한다는 가정을 넘어서는 것을 의미합니다. 이는 대규모 AI의 경제적, 물리적, 작업량 현실에 부합하는 소프트웨어 및 접근 모델을 선택하는 것을 의미합니다.
이를 제대로 이해하는 조직은 GPU 활용률 향상, 추론 경제성 개선, 성능 병목 현상 감소 등을 통해 AI 전략을 효율적으로 실행할 수 있는 유리한 위치에 서게 될 것입니다.
세계 최대 규모의 AI 및 클라우드 인프라 구축 기업의 핵심 스토리지를 구동하는 하드 드라이브 혁신에 대해 자세히 알아보세요.
출처
1. IDC 데이터스피어 및 IDC 스토리지스피어
2. AWS re:Invent 2025, 앤디 워필드 기조연설: S3는 500조 개 이상의 객체를 저장하고, 초당 2억 건의 요청을 처리하며, 연간 1000조 건 이상의 요청을 처리합니다.
클라우드 마케팅 수석 부사장
개인 클라우드 아키텍처에서 컴포저블 기능의 비용 및 성능 이점에 대해 알아보세요.