규모가 성능을 요구할 때: 글로벌 클라우드 서비스 제공업체가 하드 드라이브를 통해 두 가지 요구 사항을 모두 달성하는 방법
28 6월, 2025
멀티 테넌시 및 고성능 요구 사항이 데이터 인프라를 재편성함에 따라 가장 중요한 변화 중 하나는 학습 클러스터뿐만 아니라 수십억 개의 사용자 상호 작용에 실시간으로 응답하는 시스템에서 일어나고 있습니다.
세계 최대의 인터넷 대기업1, 인프라 아키텍트는 최근 사용자 참여와 관련된 주요 작업 부하 , 즉 소셜 미디어 댓글 활동(즉, 자주 요청하는 콘텐츠에 빠르게 액세스할 수 있는 임시 데이터 계층)을 지원하는 캐싱 인프라를 재구상하기 시작했습니다. 급증하는 트래픽 볼륨, 높은 동시성 및 높은 읽기/ 쓰기 수요와 같은 위험이 높았으며, 따라서 비용과 에너지를 대규모로 줄여야 할 필요성도 있었습니다. 이 팀은 저용량 Seagate 엔터프라이즈 드라이브를 기반으로 구축된 하드 드라이브 기반 캐시 계층이라는 전략적이면서도 기존과는 다른 솔루션을 확인했습니다.
이 계층에는 플래시가 필요한 것으로 추정되지만, 작업 부하 분석에 따르면 하드 드라이브는 성능 요구 사항을 충족하는 동시에 상당한 비용 및 효율성 이점을 제공합니다. 특히 일반적으로 비용, 전력 및 규모의 제약이 더 큰 추론 및 데이터 스테이징 작업 부하에 적합합니다. 원시 대기 시간보다 훨씬 빠릅니다.
이 아키텍처는 인프라 결정이 실제 작업 부하 동작을 기반으로 할 때 가능한 일과 전략적으로 사용되는 하드 드라이브가 어떻게 전 세계적으로 확장 가능하며 비용 효율적인 운영을 가능하게 할 수 있는지를 보여줍니다.
초점을 맞춘 작업 부하 의 목표는 바이럴 콘텐츠 참여 중에 사용자 의견 데이터에 빠르고 안정적으로 액세스할 수 있도록 하는 것이었습니다. 이 문제는 대규모로 빠르게 복잡해집니다. 그러나 수요의 양과 변동성으로 인해 평범한 것이 아니었습니다.
콘텐츠가 입소문을 타면 참여가 즉시 급증합니다. 수천에서 수백만 명의 사용자가 단 몇 분 안에 하나의 스레드에 쇄도하여 좋아요 표시, 답글 달기, 새로고침 및 재게시를 할 수 있습니다. 시스템은 소형 객체 읽기 및 쓰기의 빠른 파이어스톰을 지원해야 하며, 급격히 정점에 도달했다가 마찬가지로 빠르게 감소해야 합니다. 성능도 중요하지만 시스템 병목 현상으로 인해 성능을 활용할 수 있는 경우에만 가치를 제공합니다.
플랫폼 설계자는 다음을 지원해야 했습니다.
기존의 핫/콜드 계층화는 이러한 종류의 동적 패턴에 효과적이지 않았습니다. 플래시는 성능 요구 사항을 충족할 수 있지만 비용, 마모 및 에너지 측면으로 인해 아키텍처의 이 계층에서 지속 가능하지 않습니다.
성능 요구 사항을 충족하려면 캐싱 레이어(특히 사용자 대면 시스템의 경우)가 플래시 기반이어야 한다는 것이 일반적인 가정입니다. 그러나 이 경우 세부 작업 부하 분석을 통해 처리량 (초당 데이터를 읽거나 쓸 수 있는 속도)과 동시성(많은 동시 요청을 처리할 수 있는 능력)이 마이크로초 수준의 대기 시간이 아닌 제한 요소인 것으로 나타났습니다. 하드 드라이브는 이러한 차원에서 뛰어난 성능을 발휘하며, 병렬 처리, 캐싱 전략 및 스마트 계층화를 통해 이러한 장점을 극대화하도록 설계된 시스템 수준 아키텍처에서 동일한 작업 부하 에 대해 플래시 기반 설정보다 성능이 우수합니다.
이러한 장점의 조합을 활용하여 클라우드 공급업체 다음과 같은 이점을 얻을 수 있었습니다.
Seagate의 IDC, TRENDFOCUS 및 Forward Insights의 연구 분석에 따르면, 이러한 배포 환경에서 엔터프라이즈 하드 드라이브는 현재 SSD보다 7배 이상 저렴한 테라바이트당 구입 비용을 획기적으로 절감합니다. 이러한 델타는 특히 캐시 효율성과 내구성이 등식의 일부인 경우 아키텍처 선택에 의미 있는 영향을 미칠 수 있습니다.
최종 아키텍처는 Seagate 저용량 엔터프라이즈 하드 드라이브를 영구 캐싱 레이어로 배포하고 기본 애플리케이션 레이어와 대용량 하드 드라이브 기반 클라우드 레이어 사이에 배치했습니다. 이 구성은 팀이 다른 작업 부하에서 이미 사용하고 있던 인클로저를 사용하여 구축되었으므로 시스템을 효율적으로 재사용할 수 있습니다.
작동 방법은 다음과 같습니다.
캐싱 계층의 드라이브는 일반적으로 사용 가능한 캐시 공간에 대한 플래터의 외부 지름에 우선 순위를 두고 쓰기 동작을 최적화하며 사용 사례에 대한 효과적인 성능을 극대화하여 작동합니다.
이 아키텍처 다이어그램은 하드 드라이브 기반 캐싱, 딥 스토리지 및 애플리케이션 서비스가 함께 작동하여 바이러스 성 데이터 버스트를 효율적이고 비용 효율적으로 처리하는 방법을 보여줍니다.
이 배포를 통해 지속적인 처리량, 쓰기 내구성, 압박 시 데이터 가용성 및 함대 규모 배포를 위해 설계된 드라이브를 통해 작업 부하 의 고성능 요구를 유지하면서 전반적인 인프라 비용 및 에너지 효율성이 크게 향상되었습니다.
대부분의 추론 및 데이터 스테이징 작업 부하는 원시 대기 시간보다 비용, 전력 및 규모의 제약을 더 많이 받으므로 하드 드라이브는 올바른 아키텍처 계층에 적합합니다.
발행 당시 이 플랫폼 아키텍처는 주요 지역에 걸쳐 고객 에 의해 적극적으로 배포되었으며 광범위한 롤아웃에 대한 지속적인 평가가 이루어지고 있었습니다. 초기 지표는 안정적이었습니다. 캐시 성능 지표가 안정적으로 유지되고, 사용자 경험이 응답성이 유지되고, TCO가 개선되었습니다.
파일럿 결과가 계속 유지된다면 플랫폼은 이 모델을 크게 확장할 수 있습니다. 연간 6EB 이상에 대한 수요와 함대 규모에서 성능과 효율성을 제공할 수 있는 하드 드라이브에 대한 신뢰를 반영하여 잠재적인 연간 드라이브 볼륨이 6자리 드라이브 수량에 도달할 수 있습니다.
이는 일회성 최적화가 아닙니다. 이는 최종 사용자의 동시성 및 관련성이 인프라 요구 사항을 드라이브 하고 플랫폼 수익성을 개선할 수 있는 이미지, 마이크로 블로그, 비디오 및 기타 콘텐츠의 더 나은 공유를 구축하기 위한 새로운 패턴입니다.
이 설계의 성공은 단일 혁신에 달려 있는 것이 아니라, 다른 AI 플랫폼 구축업체가 공감할 세 가지 핵심 원칙에 달려 있습니다.
여기서 하드 드라이브는 플래시를 "우수"하는 것이 아닙니다. 실제 환경에서 성능, 비용 및 운영 효율성을 조정하는 방법은 다음과 같습니다. 엔터프라이즈 및 클라우드 인프라 전반에서 처리량, 효율성 및 규모가 가장 중요한 대부분의 데이터 작업 부하를 지속적으로 처리합니다.
성능 요구 사항을 충족하려면 최신 작업 부하에 확장 가능한 컴퓨팅과 스토리지가 모두 필요합니다. 특히 모델의 성공은 즉각적이고 지속적인 최종 사용자 관련성에 달려 있기 때문입니다.
AI 및 기타 현대적인 작업 부하가 산업 전반에 걸쳐 인프라 설계를 지속적으로 형성함에 따라 문제는 하드 드라이브를 사용할지 플래시를 사용할지 여부가 아닙니다. 실제 작업 부하 동작, 실제 제약 및 최적화 기회를 반영하는 시스템을 구축하는 방법입니다.
이 선도적인 글로벌 클라우드 서비스 공급업체 하드 드라이브가 단지 관련성이 있다는 것을 증명했습니다. 하드 드라이브는 최신 아키텍처가 확장을 위해 진화하는 방식의 핵심이며, 수요가 최고점에 도달한 경우에도 응답성 있는 데이터 액세스 및 가용성을 보장합니다.
상호 NDA에 따라 익명으로 처리됩니다.
S3 암호화는 클라우드 스토리지 인프라스트럭처에 강화된 보호 기능을 구현할 수 있습니다. S3 암호화 유형과 설정 방법을 알아보세요.