집행자 Praveen Viraraghavan

03 3월, 2025

AI

점점 늘어나는 AI 인프라 스토리지 요구 사항.

PraveenViraraghavan

AI 스토리지 솔루션은 대규모로 증가하는 데이터를 처리할 수 있도록 진화해야 합니다. 듀얼 액추에이터 드라이브, NVMe 기반 스토리지, 에너지 효율적인 솔루션과 같은 혁신이 AI 인프라의 미래를 형성합니다.

목차

AI(인공 지능)가 계속 발전함에 따라 이를 지원하는 인프라도 증가하는 데이터 스토리지 및 처리 수요를 감당할 수 있도록 진화해야 합니다. 데이터 스토리지는 AI 인프라 수명 주기에서 중요한 역할을 하며, 솔루션은 현재와 미래의 AI 과제를 해결해야 합니다.

매일 엄청난 양의 데이터가 생성됩니다. Kaleido Intelligence 보고서1에 따르면 매일 143페타바이트의 데이터를 생성하는 스마트 시티부터 테라바이트(TB)의 데이터를 생성하는 자율 주행 차량까지, 이들에 대한 효율적인 데이터 스토리지 솔루션이 어느 때보다도 필요합니다. 자율 주행 자동차 회사가 방대한 양의 데이터를 클라우드 서비스 공급업체에 업로드하면 클라우드 서비스 공급업체에서는 이를 처리하고 AI 모델을 개선하는 데 사용합니다. 이러한 지속적인 데이터 흐름에는 AI 애플리케이션에 필요한 볼륨과 속도를 모두 감당하는 강력한 스토리지 솔루션이 필요합니다.

성능 대 전력.

GPU(그래픽 처리 장치)와 같은 최첨단 기술에 조명이 몰려 있음에도 불구하고 하드 드라이브는 여전히 AI 인프라의 중요한 구성 요소입니다. AI 학습 및 추론에 사용되는 대규모 데이터 세트에 필요한 스토리지 용량을 제공합니다. GPU가 데이터 처리에서 부하가 높은 작업을 처리하는 동안 하드 드라이브는 처리에 필요한 데이터를 저장합니다. 이러한 공생 관계를 통해 AI 시스템이 스토리지 제한으로 인한 병목 현상 없이 효율적으로 작동합니다.

AI 인프라의 가장 큰 과제는 성능과 전력 소비의 균형을 맞추는 것입니다. GPU 클러스터가 성장함에 따라 클러스터를 실행하는 데 필요한 전력도 크게 증가합니다. 예를 들어 AI 리더의 경우와 같은 대규모 배포에는 상당한 양의 전력을 소비하는 GPU 수천 개가 사용됩니다. 따라서 고성능일 뿐만 아니라 전력 사용 측면에서 효율적으로 작동하는 스토리지 솔루션이 필요합니다. 이를 고려하면 단일 GPU는 최대 700와트를 소비할 수 있고 대규모 배포에는 최대 100,000개의 GPU가 사용될 수 있으므로 70메가와트의 전력 요구 사항이 발생합니다. 이는 대규모 데이터 센터의 총 전력 할당량과 같습니다. 따라서 스토리지 솔루션을 GPU와 함께 솔루션에 사용하려면 성능을 최대화하면서 전력 소비를 최소화하도록 설계되어야 합니다.

체크포인트의 중요성.

AI 학습에서 체크포인트는 시스템 고장 시 진행 상황이 손실되는 것을 방지하는 데 매우 중요합니다. 체크포인트를 사용하면 AI 모델의 상태를 일정한 간격(예: 몇 분마다)마다 저장하여 학습 프로세스를 처음부터 다시 시작하지 않고 마지막으로 저장된 상태에서 다시 시작할 수 있습니다. 이는 몇 주 또는 몇 달에 걸친 장기 교육 세션에 특히 중요합니다. 효율적인 체크포인트 사용에는 대량의 데이터를 신속하게 저장하고 검색할 수 있는 빠른 스토리지 솔루션이 필요합니다.

예를 들어 일부 대규모 학습 플랫폼은 학습 중에 매분 체크포인트를 수행하여 데이터를 솔리드 스테이트 드라이브(SSD)에 저장한 다음 하드 드라이브로 전송합니다. 이 프로세스를 통해 장애가 발생하더라도 데이터 손실을 최소화하면서 학습을 재개할 수 있습니다. 체크포인트의 크기는 상당할 수 있으며, 일부 모델에서는 체크포인트당 최대 12TB의 스토리지가 필요합니다.

하드 드라이브는 확장성, 비용 효율성, 전력 효율성 및 지속 가능성, 수명으로 인해 AI 체크포인트에 필수적입니다.

미래의 동향과 혁신.

앞으로 AI 스토리지에 대한 수요는 기하급수적으로 증가할 것으로 예상됩니다. Bloomberg Intelligence, IDC, eMarketer, Statista2의 데이터에 따르면 2032년까지 AI 스토리지 시장은 920억 달러에 이를 것으로 예상됩니다. 이러한 성장은 AI 모델의 복잡성 증가와 다양한 산업의 AI 사용 확대에 의해 주도될 것입니다. 이러한 요구 사항을 충족하기 위해 스토리지 솔루션은 정교해지고 높은 용량, 빠른 속도, 높은 전력 효율성을 제공해야 합니다.

AI 인프라의 스토리지 요구 사항을 해결하기 위해 다음과 같은 몇 가지 기술 혁신을 모색하고 있습니다.

  • 영역 밀도 증가. 장치의 헤드와 미디어의 혁신을 통해 하드 드라이브가 지속적으로 성장하면 동일한 폼 팩터에서 더 큰 용량 면적을 사용할 수 있습니다. Seagate Mozaic 지원 하드 드라이브는 세계에서 가장 효율적인 하드 드라이브 스토리지로 획득 및 운영 비용을 낮추는 동시에 생산성은 높여줍니다. Mozaic 드라이브의 향상된 영역 밀도를 통해 고객은 공간, 전력 또는 천연자원을 더 사용하지 않고도 더 많은 데이터를 저장할 수 있습니다. Mozaic 3+는 테라바이트당3 전체 수명 동안 발생하는 탄소를 55% 낮춤으로써 고객이 대규모 데이터 센터에서 최우선시하는 지속 가능한 목표를 달성하도록 도와줍니다.
  • 듀얼 액추에이터 드라이브. Mozaic 드라이브는 데이터를 동시에 읽고 쓰는 2개의 액추에이터를 사용하여 향상된 성능을 제공합니다. 이를 통해 데이터 처리량이 크게 향상되어 AI 애플리케이션에서 생성된 대량의 데이터를 쉽게 처리할 수 있습니다.
  • NVMe 기반 하드 드라이브. NVMe(Non-Volatile Memory Express) 기술은 기존의 SATA(Serial Advanced Technology Attachment) 또는 SAS 인터페이스(직렬 연결 SCSI[소형 컴퓨터 시스템 인터페이스])에 비해 빠른 데이터 액세스를 제공합니다. 데이터 센터에 NVMe 기반 하드 드라이브를 채택하여 AI 작업 부하에 중요한 높은 성능과 짧은 대기 시간을 달성할 수 있습니다.
  • 광학 상호 연결. 데이터 전송 속도가 증가함에 따라 기존의 구리 인터커넥트가 병목 현상을 유발할 수 있습니다. 광 상호 연결은 높은 대역폭과 짧은 대기 시간을 제공하여 스토리지 장치와 처리 장치 간의 데이터 이동을 더 빠르게 합니다.
  • 효율적인 스토리지 솔루션. AI 인프라의 전력 수요가 증가함에 따라 스토리지 솔루션에서 에너지 효율성이 높아져야 합니다. 여기에는 고성능을 유지하면서 전력을 적게 소비하는 드라이브를 개발하는 것은 물론, 대규모 배포에서 발생하는 열을 관리하기 위한 새로운 냉각 기술을 모색하는 것이 포함됩니다.

높아지는 AI 스토리지 수요.

데이터의 기하급수적인 성장과 AI 모델의 복잡성 증가로 인해 AI 인프라에 대한 스토리지 요구 사항이 빠르게 높아지고 있습니다. 발전이 이루어짐에 따라 이러한 수요에 보조를 맞출 수 있는 스토리지 솔루션을 개발하는 것이 필수적이므로 AI 시스템이 계속 발전하고 산업을 바꾸고 삶을 개선한다는 약속을 이행할 수 있습니다.

 


 

  1.  셀룰러 IoT 연결 시리즈: 스마트 시티 기회 및 전망, Kaleido Intelligence, 2023, https://kaleidointelligence.com/smart-cities-2027/
  2. 생성형 AI, 2032년까지 1조 3천억 달러 규모의 시장이 될 전망, Bloomberg Intelligence 연구 조사 결과, 2023 https://www.bloomberg.com/company/press/generative-ai-to-become-a-1-3-trillion-market-by-2032-research-finds/
  3. 30TB Mozaic 3+ 드라이브와 16TB 기존 PMR 드라이브의 비교. 체화 탄소에는 원자재 추출, 제품 제조/조립을 비롯하여 추출부터 제조, 제조에서 고객까지의 모든 자재 운송 과정에서 발생하는 배출이 포함됩니다.
Praveen Viraraghavan bio photo

Praveen Viraraghavan

Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.