27 1월, 2025
AI 워크로드는 엄청난 양의 정형 및 비정형 데이터를 생성합니다. 기업은 학습, 추론 및 재학습 주기를 지원하기 위해 지속적인 데이터 증가를 처리할 수 있는 확장 가능하고 대용량의 스토리지가 필요합니다.
데이터, 그것도 엄청난 양의 데이터 없이는 인공지능의 성공은 불가능합니다.
충분하고 효율적인 데이터 저장 장치 없이는 대규모 데이터 세트는 존재할 수 없습니다. AI 워크로드는 학습 데이터 세트와 추론 로그부터 메타데이터, 임베딩, 모델 출력에 이르기까지 지속적인 데이터 스트림을 생성합니다. 생성형 인공지능과 대규모 언어 모델(LLM)이 발전함에 따라 기업 데이터의 양과 종류도 기하급수적으로 증가하고 있습니다. 이러한 급속한 확장을 위해서는 지속적인 데이터 수집, 고속 액세스 및 장기간에 걸친 안정적인 데이터 보존을 처리할 수 있는 스토리지 아키텍처가 필요합니다.
데이터는 인공지능을 뒷받침하고, 대용량 하드 드라이브는 데이터를 저장합니다.
이러한 통찰은 시장조사기관 리콘 애널리틱스의 2025년 설문조사를 통해 명확하게 드러납니다.
이번 글로벌 설문조사는 다양한 산업 분야의 기업들이 인공지능을 지원하기 위해 인프라를 어떻게 조정하고 있는지에 대한 자세한 내용을 제공합니다. 응답자들은 이미 AI를 사용하고 있거나 사용할 계획인 조직들을 대표하며, 스토리지 요구 사항, 확장성 문제 및 기업 데이터 인프라의 미래에 대한 통찰력을 제공합니다.
Seagate가 의뢰한 글로벌 설문 조사는 1,062명의 응답자를 대상으로 실시되었습니다. 이들은 연간 매출 1천만 달러 이상, 현재 스토리지 사용량 50테라바이트(TB) 이상, AI를 도입했거나 향후 3년 내에 도입할 계획인 기업의 스토리지 인프라 관련 업무를 담당하는 IT 스토리지 구매 담당자 및 의사 결정권자이며, 미국, 중국, 영국, 한국, 싱가포르, 프랑스, 인도, 일본, 대만, 독일 지역에 위치하고 있습니다.
이번 조사는 인공지능 도입이 인프라 우선순위, 데이터 보존 및 데이터 관리에 미치는 영향에 초점을 맞췄습니다. 이 결과는 AI가 향후 3년 동안 인프라 요구 사항에 어떤 영향을 미칠지 보여 줍니다.
최근 Recon Analytics의 설문조사에 따르면 기업들이 AI 시대에 맞춰 데이터 생태계를 계획하는 방식에 중대한 변화가 일어나고 있는 것으로 나타났습니다. 이제 조직들은 AI를 독립적인 프로젝트로 취급하기보다는, AI 도입 가속화에 대응하여 스토리지 전략, 리소스 할당 및 장기적인 인프라 설계를 재평가하고 있습니다. 이번 설문조사는 전 세계 IT 리더들이 데이터 증가, 보존 요구 사항 및 성능 기대치가 그 어느 때보다 빠르게 높아질 미래에 어떻게 대비하고 있는지를 보여줍니다.
무엇보다도, 설문 조사는 AI 도입으로 인해 2028년까지 데이터 스토리지 수요가 기하급수적으로 증가할 것이라는 점을 보여 주었습니다.
주로 클라우드 스토리지를 사용하는 회사 응답자 중 61%가 향후 3년 동안 자사 클라우드 기반 스토리지가 100% 이상 증가해야 한다고 답했습니다. 즉, 두 배로 늘어나야 한다는 뜻입니다.
그림 1. 인공지능 데이터 관리를 위해 주로 클라우드 스토리지를 사용하는 기업의 응답자 중 61%는 스토리지 요구량이 100% 이상 증가할 것으로 예상했습니다.
AI 애플리케이션이 전례 없는 데이터 생성을 촉발함에 따라, 조직이 더 많은 데이터를 저장할수록 AI가 예상대로 작동하고 있음을 더 잘 검증할 수 있습니다. 기업은 훈련 데이터 세트, 모델 점검 지점, 프롬프트 및 답변과 같은 행동 데이터에 접근할 수 있게 되면 알고리즘을 면밀히 검토하고 AI 의사 결정 과정을 더 잘 이해하고 개선할 수 있습니다. 방대한 데이터 세트를 저장하고 검색하는 능력이 AI 성능의 핵심이기 때문에 규모와 효율성을 갖춘 데이터 센터가 없다면 AI의 잠재력도 제한될 것입니다.
AI의 성공을 좌우하는 것은 저장 용량만이 아닙니다. 데이터 저장 기간 또한 중요합니다.
금융, 의료, 제조 및 정부 기관과 같은 산업은 규정 준수 요건 및 감사 요구 사항을 충족하기 위해 장기 보존에 의존합니다. 과거 데이터를 보존하면 거버넌스 체계가 강화되고, 규제 보고를 지원하며, 시간이 지남에 따라 AI 출력의 정확도가 향상됩니다.
AI 기술을 도입한 기업에 고용된 설문 응답자 중 90%는 데이터 보존 기간이 길어질수록 AI 결과의 질이 향상된다고 믿습니다.
그림 2. 오늘날 AI를 사용하는 기업의 90%는 더 많은 과거 데이터를 보존하는 것이 모델 정확도를 향상시킨다고 믿습니다.
이 결과는 데이터를 더 오래 보존하는 것과 AI 통찰력의 신뢰성 사이에 상관관계가 있음을 나타냅니다. 이는 여러 요인에 의해 뒷받침될 수 있습니다. 첫째, 지속적인 반복 처리가 AI 알고리즘의 작동 방식에 내재되어 있습니다. 콘텐츠 출력은 모델에 피드백을 제공하여 정확도를 향상하고 새로운 모델을 활성화합니다. 원시 데이터 세트와 결과는 추가 개발 및 새로운 작업 흐름의 소스가 됩니다.
하지만 데이터 세트를 더 오랫동안 보관하는 것은 회사의 지적 재산을 보호하는 등 다른 중요한 비즈니스 기능에도 도움이 됩니다. 이 시스템은 모델의 원래 데이터 세트와 프로세스에 대한 '영수증'을 보관하고, 필요할 때(예: 법적 절차의 일부로) 결과에 대한 설명을 제공합니다.
이러한 영수증은 데이터의 계보를 확립하여 데이터가 입력에서 출력에 이르기까지 거치는 과정을 명확하게 기록합니다. 데이터 계보를 통해 조직은 데이터 세트의 출처와 사용 내역을 추적할 수 있으므로 AI 모델은 정확한 데이터를 기반으로 구축됩니다. 이를 통해 AI 시스템을 완벽하게 감사할 수 있으며, 규정 준수와 내부 책임성을 모두 지원합니다.
또한 기업들은 과거의 데이터에서 미래의 알고리즘이 어떤 새롭고 가치 있는 통찰력을 발견할지 오늘날 알 수 없다는 점을 인식하고 있기 때문에 더 많은 데이터를 더 오랫동안 저장하기로 결정할 수도 있습니다. 데이터 보존 기간이 길어지면 아직 개발되지 않은 AI 모델로도 오래된 데이터를 처리할 수 있습니다. 이러한 이유로 데이터 보존 기간이 길수록 AI가 제공할 수 있는 비즈니스 가치가 향상됩니다.
이와 관련된 또 다른 조사 결과에 따르면, 인프라 관련 의사 결정권자들은 신뢰 구축을 위해 데이터 보존 기간 연장이 필수적이라고 보고 있습니다. 신뢰는 인공지능이 도출한 인사이트가 큰 가치를 지니기 위해서는 반드시 필요한 기반입니다.
현재 AI를 사용하는 기업의 응답자 중 88%는 신뢰할 수 있는 AI를 도입하면 더 오랜 기간 동안 더 많은 데이터를 저장해야 할 필요성이 커진다고 생각합니다.
그림 3. 현재 AI를 사용하는 기업의 응답자 중 88%는 신뢰할 수 있는 AI를 도입하려면 더 많은 데이터를 더 오랜 기간 동안 저장해야 할 필요성이 커진다고 답했습니다.
Seagate는 신뢰할 수 있는 AI를 신뢰할 수 있는 입력을 사용하고 신뢰할 수 있는 통찰력을 생성하는 AI 데이터 워크플로 및 모델로 정의합니다. 신뢰할 수 있는 AI는 다음과 같은 기준을 충족하는 데이터를 기반으로 구축됩니다.
확장 가능한 스토리지 인프라는 AI 시스템에서 사용하는 방대한 양의 데이터를 적절하게 관리, 저장 및 보호하므로 신뢰할 수 있는 AI를 지원합니다.
신뢰할 수 있는 AI를 구축하는 과정에서, 설문 응답자의 80%가 체크포인팅의 중요성을 강조했습니다.
체크포인트는 학습하는 동안 특정한 짧은 간격으로 AI 모델의 상태를 저장하는 프로세스입니다. AI 모델은 대규모 데이터 세트를 사용하여 반복적인 과정을 통해 학습되며, 이 과정은 몇 분에서 몇 달까지 걸릴 수 있습니다. 모델 학습 기간은 모델의 복잡성, 데이터셋 크기, 사용 가능한 컴퓨팅 성능에 따라 달라집니다. 이 기간 동안 모델에는 데이터가 입력되고, 매개변수가 조정되며, 시스템은 처리된 정보를 기반으로 결과를 예측하는 방법을 학습합니다.
조사에 따르면 100PB 이상의 스토리지를 사용하는 기업들은 매일 또는 매주 체크포인트를 저장하고 백업하고 있으며, 이들 중 87%는 클라우드 또는 하드 드라이브와 SSD를 혼합하여 체크포인트를 저장하고 있는 것으로 나타났습니다.
이러한 규모의 체크포인트 기능을 지원하려면 기업은 모델 진행을 방해하지 않고 지속적인 쓰기 작업을 처리할 수 있는 스토리지 시스템이 필요합니다. 대용량 하드 드라이브와 하이브리드 클라우드 아키텍처는 이러한 빠른 스냅샷 주기를 유지하는 데 필요한 안정성과 비용 효율성을 제공합니다. 조직은 체크포인트를 지속적으로 캡처하고 보호함으로써 교육 진행 상황을 보호하고, 중단 발생 시 복구를 가속화하며, 안정적이고 예측 가능한 AI 개발 워크플로를 유지할 수 있습니다.
컴퓨팅과 에너지는 AI 도입에 대한 논의에서 인기 있는 주제입니다. 그러나 Recon Analytics 설문 조사에서는 스토리지를 중요한 동인으로 강조하고 있습니다.
그림 4. 인프라 의사 결정권자의 66%는 AI 구현에 있어 가장 중요한 네 가지 요소 중 스토리지를 두 번째로 꼽았습니다. 또한 스토리지를 AI 배포에 있어 네 번째로 중요한 장애 요인으로 평가했습니다.
"설문 조사 결과는 일반적으로 데이터 스토리지에 대한 수요가 급증하고 있으며 하드 드라이브가 확실한 승자로 떠오르고 있음을 시사합니다. 설문 조사에 참여한 기업 리더들이 AI 기반 데이터를 클라우드에 점점 더 많이 저장할 의향이 있다는 점을 고려할 때, 클라우드 서비스는 두 번째 성장 물결을 탈 수 있는 좋은 위치에 있습니다.
Recon의 설립자이자 수석 분석가인 Roger Entner는 핵심 내용을 다음과 같이 설명합니다.
AI에서 최대한의 가치를 얻으려면 기업은 확장 가능하고 효율적인 데이터 스토리지를 준비해야 합니다. 직접적으로든 클라우드 서비스를 통해서든, AI가 데이터에 의존하는 것은 하드 드라이브에 달려 있습니다. 하드 드라이브는 뛰어난 용량, 비용 효율성, 지속 가능성을 제공하며 신뢰할 수 있는 AI의 중추 역할을 합니다.
하드 드라이브는 대규모 AI 스토리지에 있어 테라바이트당 비용 측면에서 타의 추종을 불허하는 이점을 제공합니다. 대용량 하드 드라이브는 확장성, 에너지 효율성 및 지속 가능성 측면에서 최적의 균형을 제공하여 기업이 예산이나 전력 제약을 초과하지 않고 스토리지 용량을 확장할 수 있도록 합니다.
AI 워크로드가 지역화됨에 따라 데이터 가치의 새로운 지평이 열리고 있습니다.
Seagate의 32TB Exos, SkyHawk AI 및 IronWolf Pro 드라이브는 클라우드, 엣지 비디오 및 NAS 워크로드에 특화된 CMR 스토리지를 제공합니다.