AIインフラストラクチャのサポートに不可欠な進化するストレージ
03 3月, 2025
増加し続ける大量のデータに対応するには、AIストレージ・ソリューションも進化しなくてはなりません。今、デュアル・アクチュエータ・ドライブ、NVMeベースのストレージ・ソリューション、省エネ性能の高いソリューションなどの画期的な技術によって、AIインフラの未来が形作られつつあります。
人工知能 (AI) の進化に合わせてデータ・ストレージや処理に対する需要も増大し、AIの基盤となるインフラストラクチャにもその変化に対応できるよう進化することが求められています。AIインフラのライフサイクルの中でデータ・ストレージが担う役割は極めて重要であり、AIにまつわる今現在の課題にも、将来現れるであろう課題にも耐えうるポテンシャルを秘めたソリューションが必要です。
日々生成されるデータは驚異的な量に上ります。Kaleido Intelligenceのレポート1によれば、スマート・シティでは1日あたり143ペタバイトのデータが生成され、自動運転車からは数テラバイト (TB) のデータが生成されるなど、効率的なデータ・ストレージ・ソリューションの必要性はかつてないほど高まっています。自動運転車を開発する企業では膨大なデータがクラウド・サービス・プロバイダにアップロードされ、処理されたデータがAIモデルの改善に利用されています。このようにデータが絶えず流れている環境では、AIアプリケーションに必要な容量と転送速度を両立した、信頼できるストレージ・ソリューションが必要です。
グラフィックス・プロセッシング・ユニット (GPU) のような最先端技術が注目を集めがちですが、AIインフラにおいて決定的に重要な要素は依然ハードディスク・ドライブです。ハードディスク・ドライブはAIのトレーニングや推論で使用される膨大なデータ・セットに不可欠なストレージ容量を備えています。データ処理という負荷を担うのがGPUなら、その処理に必要なデータを保存するのがハードディスク・ドライブです。この共存関係のおかげでAIシステムはストレージの制限がボトルネックにならずに効率的に動作できます。
AIインフラで特に課題となるものの1つは、パフォーマンスと消費電力どちらかに偏ることなく両方を追求することですGPUクラスターが大きくなればなるほど、その実行に必要な電力量は大幅に増加します。たとえばAIのリーダー企業のような大規模な環境では何千個ものGPUが使用され、そうした環境で消費される電力は相当な量になります。そのため高性能なだけでなく、電力の使用に関しても効率的に動作するストレージ・ソリューションが必要とされているのです。その点を踏まえて考えると、GPU1個の消費電力は最大700ワットになり、最大10万個のGPUが使用される大規模な環境では70メガワットという電力が必要になる計算です。これは大規模なデータ・センターの総電力量に匹敵します。したがってストレージ・ソリューションをGPUと合わせてソリューションに適合させるには、消費電力を最小限に抑えつつ最高のパフォーマンスを発揮できるように設計する必要があります。
AIのトレーニングにおいて、システムに障害が発生した場合にそれまでの成果が失われるのを防ぐ上で重要になるのがチェックポイントです。チェックポイントによってAIモデルの状態を一定(たとえば数分ごと)の間隔で保存することで、トレーニングを最初からやり直さずに最後に保存した状態から再開できます。数週間から数か月に及ぶ長期的なトレーニング・セッションでは経過を保存することが特に重要になります。効率的なチェックポイントの作成には、大量のデータを速やかに保存、取得可能な高速なストレージ・ソリューションが必要です。
たとえば大規模なトレーニング・プラットフォームの中にはトレーニング中に1分間隔でチェックポイントを作成し、データをソリッド・ステート・ドライブ (SSD) に保存してそれをハードディスク・ドライブに転送するものがあります。この処理によって万一障害が発生しても、データの損失を最小限に抑えてトレーニングを再開できます。こうして作成されるチェックポイントのサイズは相当な容量になる場合があり、チェックポイントごとに最大12TBのストレージが必要なモデルもあります。
ハードディスク・ドライブは拡張性、コスト効率、電力効率、持続可能性および耐用年数の観点からAIのチェックポイント作成に不可欠。
AIストレージの需要は今後飛躍的に伸びると予想されます。Bloomberg Intelligence、IDC、eMarketer、Statista2各社のデータによると、2032年までにAIストレージの市場は920億ドルに達すると予測されています。この成長の原動力となるのはAIモデルの複雑化と、さまざまな業界でのAIの普及です。こうした需要に応えるには、より複雑な処理にも対応できるストレージ・ソリューションに仕上げ、容量面でも速度面でも、また電力効率の面でもさらに性能を高める必要があります。
現在はAIインフラのストレージ需要に応えるために、以下の分野における技術的なイノベーションが模索されています。
AIインフラのストレージに対する需要は、データの急激な増大とAIモデルの複雑化に牽引される形で急速に複雑さを増しています。AIシステムが進歩を続け、業界の変革と豊かな生活の実現という将来の可能性に応えていくには、こうした需要に対応できるストレージ・ソリューションの開発が必要不可欠でしょう。
Praveen Viraraghavan
Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.