점점 늘어나는 AI 인프라 스토리지 요구 사항.
03 3월, 2025
AI 스토리지 솔루션은 대규모로 증가하는 데이터를 처리할 수 있도록 진화해야 합니다. 듀얼 액추에이터 드라이브, NVMe 기반 스토리지, 에너지 효율적인 솔루션과 같은 혁신이 AI 인프라의 미래를 형성합니다.
AI(인공 지능)가 계속 발전함에 따라 이를 지원하는 인프라도 증가하는 데이터 스토리지 및 처리 수요를 감당할 수 있도록 진화해야 합니다. 데이터 스토리지는 AI 인프라 수명 주기에서 중요한 역할을 하며, 솔루션은 현재와 미래의 AI 과제를 해결해야 합니다.
매일 엄청난 양의 데이터가 생성됩니다. Kaleido Intelligence 보고서1에 따르면 매일 143페타바이트의 데이터를 생성하는 스마트 시티부터 테라바이트(TB)의 데이터를 생성하는 자율 주행 차량까지, 이들에 대한 효율적인 데이터 스토리지 솔루션이 어느 때보다도 필요합니다. 자율 주행 자동차 회사가 방대한 양의 데이터를 클라우드 서비스 공급업체에 업로드하면 클라우드 서비스 공급업체에서는 이를 처리하고 AI 모델을 개선하는 데 사용합니다. 이러한 지속적인 데이터 흐름에는 AI 애플리케이션에 필요한 볼륨과 속도를 모두 감당하는 강력한 스토리지 솔루션이 필요합니다.
GPU(그래픽 처리 장치)와 같은 최첨단 기술에 조명이 몰려 있음에도 불구하고 하드 드라이브는 여전히 AI 인프라의 중요한 구성 요소입니다. AI 학습 및 추론에 사용되는 대규모 데이터 세트에 필요한 스토리지 용량을 제공합니다. GPU가 데이터 처리에서 부하가 높은 작업을 처리하는 동안 하드 드라이브는 처리에 필요한 데이터를 저장합니다. 이러한 공생 관계를 통해 AI 시스템이 스토리지 제한으로 인한 병목 현상 없이 효율적으로 작동합니다.
AI 인프라의 가장 큰 과제는 성능과 전력 소비의 균형을 맞추는 것입니다. GPU 클러스터가 성장함에 따라 클러스터를 실행하는 데 필요한 전력도 크게 증가합니다. 예를 들어 AI 리더의 경우와 같은 대규모 배포에는 상당한 양의 전력을 소비하는 GPU 수천 개가 사용됩니다. 따라서 고성능일 뿐만 아니라 전력 사용 측면에서 효율적으로 작동하는 스토리지 솔루션이 필요합니다. 이를 고려하면 단일 GPU는 최대 700와트를 소비할 수 있고 대규모 배포에는 최대 100,000개의 GPU가 사용될 수 있으므로 70메가와트의 전력 요구 사항이 발생합니다. 이는 대규모 데이터 센터의 총 전력 할당량과 같습니다. 따라서 스토리지 솔루션을 GPU와 함께 솔루션에 사용하려면 성능을 최대화하면서 전력 소비를 최소화하도록 설계되어야 합니다.
AI 학습에서 체크포인트는 시스템 고장 시 진행 상황이 손실되는 것을 방지하는 데 매우 중요합니다. 체크포인트를 사용하면 AI 모델의 상태를 일정한 간격(예: 몇 분마다)마다 저장하여 학습 프로세스를 처음부터 다시 시작하지 않고 마지막으로 저장된 상태에서 다시 시작할 수 있습니다. 이는 몇 주 또는 몇 달에 걸친 장기 교육 세션에 특히 중요합니다. 효율적인 체크포인트 사용에는 대량의 데이터를 신속하게 저장하고 검색할 수 있는 빠른 스토리지 솔루션이 필요합니다.
예를 들어 일부 대규모 학습 플랫폼은 학습 중에 매분 체크포인트를 수행하여 데이터를 솔리드 스테이트 드라이브(SSD)에 저장한 다음 하드 드라이브로 전송합니다. 이 프로세스를 통해 장애가 발생하더라도 데이터 손실을 최소화하면서 학습을 재개할 수 있습니다. 체크포인트의 크기는 상당할 수 있으며, 일부 모델에서는 체크포인트당 최대 12TB의 스토리지가 필요합니다.
하드 드라이브는 확장성, 비용 효율성, 전력 효율성 및 지속 가능성, 수명으로 인해 AI 체크포인트에 필수적입니다.
앞으로 AI 스토리지에 대한 수요는 기하급수적으로 증가할 것으로 예상됩니다. Bloomberg Intelligence, IDC, eMarketer, Statista2의 데이터에 따르면 2032년까지 AI 스토리지 시장은 920억 달러에 이를 것으로 예상됩니다. 이러한 성장은 AI 모델의 복잡성 증가와 다양한 산업의 AI 사용 확대에 의해 주도될 것입니다. 이러한 요구 사항을 충족하기 위해 스토리지 솔루션은 정교해지고 높은 용량, 빠른 속도, 높은 전력 효율성을 제공해야 합니다.
AI 인프라의 스토리지 요구 사항을 해결하기 위해 다음과 같은 몇 가지 기술 혁신을 모색하고 있습니다.
데이터의 기하급수적인 성장과 AI 모델의 복잡성 증가로 인해 AI 인프라에 대한 스토리지 요구 사항이 빠르게 높아지고 있습니다. 발전이 이루어짐에 따라 이러한 수요에 보조를 맞출 수 있는 스토리지 솔루션을 개발하는 것이 필수적이므로 AI 시스템이 계속 발전하고 산업을 바꾸고 삶을 개선한다는 약속을 이행할 수 있습니다.
Praveen Viraraghavan
Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.