Perspective

28 6月, 2025

エンタープライズ・データ・センター

スケールがパフォーマンスを要求するとき:グローバル・クラウド・サービス・プロバイダがハードディスク・ドライブで両方のニーズを実現した方法

Perspective

両手でスマートフォンを持ち、テキスト、サムズアップ、ハートなどのアイコンを表示し、多様なデジタル活動を示す

マルチテナントとハイパフォーマンス要件がデータ・インフラストラクチャを再構築する中、最も重大な変化のひとつは、トレーニング・クラスタだけでなく、何十億ものユーザー・インタラクションにリアルタイムで対応するシステムでも起こっています。

世界最大級のインターネット企業1のインフラ・アーキテクトは最近、ユーザーとのエンゲージメントに関連する重要なワークロード、つまりソーシャル・メディアのコメント活動をサポートするキャッシュ・インフラ(つまり、頻繁にリクエストされるコンテンツへの高速アクセスを可能にする一時的なデータ・レイヤー)の再構築に着手しました。トラフィック量の急増、並行処理の多さ、読取り/書込み需要の多さといった大きなリスクを負う中、コストとエネルギーを大規模に削減する必要もありました。チームは、戦略的でありながら型破りなソリューションとして、低容量のSeagateエンタープライズ・ドライブで構築されたハードディスク・ドライブ・ベースのキャッシュ層を見出しました。

このレイヤーにはフラッシュが必要と想定されることもありますが、ワークロード分析によると、ハードディスク・ドライブはパフォーマンス要求を満たすと同時に、コストと効率性に大きなメリットをもたらします。特に顕著なのは、通常、生のレイテンシーよりもコスト、電力、規模による制約が多い推論やデータ・ステージングのワークロードです。

このアーキテクチャは、インフラストラクチャの決定が実際のワークロードの挙動に基づいて行われた場合に何が可能になるかを示しており、ハードディスク・ドライブを戦略的に使用することで、パフォーマンス、拡張性、コスト効率の高い運用をグローバル規模で実現できることを示しています。

データ・ワークロードを理解する:短いバースト、高い並行処理能力

焦点となるワークロードの目標は、バイラル・コンテンツのエンゲージメント中に、ユーザー・コメント・データへの高速で信頼性の高いアクセスを実現することでした。これは、規模が大きくなるとすぐに複雑になる課題です。しかし、その需要の量と変動性により、この課題は平凡からかけ離れたものになりました。

コンテンツがバイラルになると、エンゲージメントは瞬時に急上昇します。数千から数百万のユーザーが数分以内にひとつのスレッドに殺到し、いいね!を付けたり、返信したり、更新したり、リポストする可能性があります。システムは、急激に増加し、その後急激に減少する、スモール・オブジェクトの読取り/書込みの急速な爆発をサポートする必要があります。また、パフォーマンスは重要ですが、システムのボトルネックによってそのパフォーマンスが発揮される場合にのみ、価値が生まれます。

プラットフォームのアーキテクトは、次のものをサポートする必要がありました。

  • 短期間における、非常に多い同時アクセス数。
  • ユーザーのアクティビティに連動した大量の読取り/書込みトラフィック。
  • ユーザー・エクスペリエンスのための高速応答キャッシュ(常時オン、低レイテンシーのフラッシュはなし)。

従来のホット/コールド・ティアリングは、このようなダイナミックなパターンには効果がありませんでした。また、フラッシュは性能のニーズには応えることができましたが、そのコスト、消耗、エネルギー・プロファイルから、アーキテクチャのこのレイヤーでは持続不可能でした。

スループットとレイテンシーの比較:クラウド・パフォーマンスのためのデータ・キャッシュ再考

一般的には、キャッシュ・レイヤー、特にユーザー向けシステムのキャッシュ・レイヤーは、パフォーマンス・ニーズを満たすためにフラッシュベースでなければならないと考えられています。しかし、このケースでは、詳細なワークロード分析により、マイクロ秒レベルのレイテンシーではなく、スループット(1秒あたりのデータ読取り/書込み速度)と並行処理能力(多数の同時リクエストを処理する能力)が制限要因であることが判明しました。ハードディスク・ドライブは、これらの面で高いパフォーマンスを発揮します。並列処理、キャッシュ戦略、スマート階層化など、これらの強みを最大限に引き出すように設計されたシステム・レベルのアーキテクチャでは、同じワークロードに対して、フラッシュベースの環境を上回る性能を発揮します。

この強みの組み合わせを活用することで、クラウド・プロバイダは次のことが可能になりました。

  • 高いシーケンシャル・スループットと同時スループットを実現する。
  • 短期間の激しいピーク時に大量のデータを処理する。
  • テラバイトあたりのコストと消費電力を抑えて動作する。これは、データ・センターの電力と熱の予算がますます制約される中で、重要な検討事項です。

IDC、TRENDFOCUS、Forward Insightsの調査に対するSeagateの分析によれば、このような展開において、エンタープライズ・ハードディスク・ドライブでは、テラバイトあたりの取得コストが劇的に削減され、現在SSDの7分の1以下になっています。特にキャッシュ効率と耐久性が考慮される場合、この差はアーキテクチャの選択に大きな影響を与える可能性があります。

ハードディスク・ドライブ・キャッシュ:拡張性と効率性に優れたデータ・アクセスのためのソリューション

最終的なアーキテクチャでは、Seagateの低容量エンタープライズ・ハードディスク・ドライブを永続キャッシュ・レイヤーとして導入し、プライマリ・アプリケーション・レイヤーと大容量ハードディスク・ドライブ・ベースのクラウド・レイヤーの間に配置しました。この構成は、チームが他のワークロードですでに使用していたエンクロージャを使用して構築され、効率的なシステムの再利用を可能にしました。

仕組みは以下のとおりです。

  • ピーク時には、コメント・データはハードディスク・ドライブ・ベースのキャッシュ層に直接書き込まれる。
  • このハードディスク・ドライブ・ベースのデータ・レイヤーは、バースト時にグローバル規模で高速かつ反復可能なアクセスを提供するために必要な高スループット、高い並行処理能力を提供する。
  • 需要が先細りになると、キャッシュされたデータはフラッシュされるか、大容量ドライブ(24TBや30TBなど)に構築された、より深いストレージ層に移行される。

キャッシング層のドライブは通常、使用可能なキャッシュ・スペースのためにプラッタの外径を優先して動作し、書込み動作を最適化し、用途に合わせて効果的なパフォーマンスを最大化します。

クラウド・ストレージ・インフラストラクチャにおけるコスト、電力、パフォーマンスのバランス

フロー・チャートは、コメントがどのようにキャッシュ・モジュールに入り、キャッシュ層とクラウド・ストレージを行き来し、コメント処理システムに送られるかを示しています。

このアーキテクチャ図は、ハードディスク・ドライブ・ベースのキャッシュ、ディープ・ストレージ、およびアプリケーション・サービスがどのように連携し、バイラル・データ・バーストを効率的かつコスト効率よく処理するかを示しています。

この導入により、インフラ全体のコストとエネルギー効率が大幅に改善されました。また、持続的なスループット、書込み耐久性、プレッシャー下でのデータ可用性、大規模展開のために設計されたドライブにより、ワークロードのハイパフォーマンス要求も維持することができました。

  • 低容量のエンタープライズ・ハードディスク・ドライブを使用することで、フラッシュ・ベースの製品に比べてテラバイトあたりの調達コストを大幅に抑えながら、必要なパフォーマンスを実現しました。
  • ドライブがアイドル時IOPSではなく、持続的な書込みバースト用に最適化されているため、スループット単位あたりの消費電力が低下しました。一般に、システム・レベルの比較では、ハードディスク・ドライブがQLCフラッシュと比べてテラバイトあたりの消費電力を最大70%削減できることも示されています。
  • チームは既存のインフラを再利用することで、新たなハードウェア投資を最小限に抑え、導入スケジュールを加速することができました。
  • 重要なのは、ハードディスク・ドライブをベースとしたキャッシュ層が、期待されるヒットレートを満たすか、上回り続けていることで、最もバイラルなトラフィックの急増時においても、シームレスなコメントのやり取りをサポートしていることです。

推論やデータ・ステージングのワークロードのほとんどは、生のレイテンシーよりもコスト、電力、規模によって制約されるため、ハードディスク・ドライブが適切なアーキテクチャ層に実用的に適合します。

クラウド・キャッシュの拡張:パイロットの成功からグローバル・プラットフォームの標準へ

この発表の時点では、このプラットフォーム・アーキテクチャはお客様によって主要地域に積極的に展開されており、より広範な展開について継続的に評価されています。初期の指標は良好で、キャッシュ・パフォーマンス指標は安定し、ユーザー・エクスペリエンスは応答性を維持し、TCOは改善されました。

パイロットの結果が維持されれば、プラットフォームはこのモデルを大幅に拡大する可能性があります。年間導入量としては、ドライブの数量が6桁に到達する可能性があります。これは、年間6EB以上の需要と、大規模にパフォーマンスと効率を提供するハードディスク・ドライブに対する信頼を反映しています。

これは単なる一過性の最適化ではなく、エンドユーザーの並行処理と関連性がインフラ要件を推進し、プラットフォームの収益性向上を可能にする、画像、マイクロブログ、動画、その他のコンテンツのより良い共有を構築するための新たなパターンです。

拡張性とコスト効率の高いクラウド・キャッシング・アーキテクチャを構築するための重要な教訓

この設計の成功は、何かひとつのブレークスルーにかかっているのではなく、他のAIプラットフォーム・ビルダーと共鳴する3つの基本原則にかかっています。

  • すべてのハイパフォーマンス・レイヤーがフラッシュを必要とするわけではないため、想定ではなくワークロードに合わせた設計
  • スループット、並行処理能力、書込み可用性、取り込み速度、システム利用率などのパフォーマンスの主要な側面は、生のレイテンシーよりも重要であることが多い。
  • ストレージ層を最適化し、再利用することで、より効率的に現代の需要に応えることができる。

ここではハードディスク・ドライブがフラッシュに「勝った」のではなく、単に理にかなっていただけです。現実の環境におけるパフォーマンス、コスト、運用効率の調整は、このようになります。エンタープライズ/クラウド・インフラストラクチャ全体において、スループット、効率性、規模が最も重要となるデータ・ワークロードの大部分に対応し続けています。

最終的な考察:実際のワークロードを反映したクラウド・インフラストラクチャの構築

パフォーマンスのニーズを満たすため、現代のワークロードには、拡張可能なコンピューティングとストレージの両方が必要です。特に、モデルの成功は、エンドユーザーとの継続的な関連性を即座に確保できるかどうかにかかっています。

AIをはじめとする最新のワークロードが業界全体のインフラ設計を形作り続ける中、問題はハードディスク・ドライブとフラッシュのどちらを使うかではありません。問題となるのは、実際のワークロードの挙動、実際の制約、実際の最適化の機会を反映したシステムを構築する方法です。

この大手グローバル・クラウド・サービス・プロバイダは、ハードディスク・ドライブが単に適切であるだけでなく、最新のアーキテクチャがスケールアップできるように進化する上での中心的存在であり、ピーク需要時にも対応できるデータ・アクセスと可用性を保証するものであることを証明しました。

脚注

相互NDAにより匿名化。

関連トピック:

Cloud Data Center