スケールがパフォーマンスを要求するとき:グローバル・クラウド・サービス・プロバイダがハードディスク・ドライブで両方のニーズを実現した方法
28 6月, 2025
マルチテナントとハイパフォーマンス要件がデータ・インフラストラクチャを再構築する中、最も重大な変化のひとつは、トレーニング・クラスタだけでなく、何十億ものユーザー・インタラクションにリアルタイムで対応するシステムでも起こっています。
世界最大級のインターネット企業1のインフラ・アーキテクトは最近、ユーザーとのエンゲージメントに関連する重要なワークロード、つまりソーシャル・メディアのコメント活動をサポートするキャッシュ・インフラ(つまり、頻繁にリクエストされるコンテンツへの高速アクセスを可能にする一時的なデータ・レイヤー)の再構築に着手しました。トラフィック量の急増、並行処理の多さ、読取り/書込み需要の多さといった大きなリスクを負う中、コストとエネルギーを大規模に削減する必要もありました。チームは、戦略的でありながら型破りなソリューションとして、低容量のSeagateエンタープライズ・ドライブで構築されたハードディスク・ドライブ・ベースのキャッシュ層を見出しました。
このレイヤーにはフラッシュが必要と想定されることもありますが、ワークロード分析によると、ハードディスク・ドライブはパフォーマンス要求を満たすと同時に、コストと効率性に大きなメリットをもたらします。特に顕著なのは、通常、生のレイテンシーよりもコスト、電力、規模による制約が多い推論やデータ・ステージングのワークロードです。
このアーキテクチャは、インフラストラクチャの決定が実際のワークロードの挙動に基づいて行われた場合に何が可能になるかを示しており、ハードディスク・ドライブを戦略的に使用することで、パフォーマンス、拡張性、コスト効率の高い運用をグローバル規模で実現できることを示しています。
焦点となるワークロードの目標は、バイラル・コンテンツのエンゲージメント中に、ユーザー・コメント・データへの高速で信頼性の高いアクセスを実現することでした。これは、規模が大きくなるとすぐに複雑になる課題です。しかし、その需要の量と変動性により、この課題は平凡からかけ離れたものになりました。
コンテンツがバイラルになると、エンゲージメントは瞬時に急上昇します。数千から数百万のユーザーが数分以内にひとつのスレッドに殺到し、いいね!を付けたり、返信したり、更新したり、リポストする可能性があります。システムは、急激に増加し、その後急激に減少する、スモール・オブジェクトの読取り/書込みの急速な爆発をサポートする必要があります。また、パフォーマンスは重要ですが、システムのボトルネックによってそのパフォーマンスが発揮される場合にのみ、価値が生まれます。
プラットフォームのアーキテクトは、次のものをサポートする必要がありました。
従来のホット/コールド・ティアリングは、このようなダイナミックなパターンには効果がありませんでした。また、フラッシュは性能のニーズには応えることができましたが、そのコスト、消耗、エネルギー・プロファイルから、アーキテクチャのこのレイヤーでは持続不可能でした。
一般的には、キャッシュ・レイヤー、特にユーザー向けシステムのキャッシュ・レイヤーは、パフォーマンス・ニーズを満たすためにフラッシュベースでなければならないと考えられています。しかし、このケースでは、詳細なワークロード分析により、マイクロ秒レベルのレイテンシーではなく、スループット(1秒あたりのデータ読取り/書込み速度)と並行処理能力(多数の同時リクエストを処理する能力)が制限要因であることが判明しました。ハードディスク・ドライブは、これらの面で高いパフォーマンスを発揮します。並列処理、キャッシュ戦略、スマート階層化など、これらの強みを最大限に引き出すように設計されたシステム・レベルのアーキテクチャでは、同じワークロードに対して、フラッシュベースの環境を上回る性能を発揮します。
この強みの組み合わせを活用することで、クラウド・プロバイダは次のことが可能になりました。
IDC、TRENDFOCUS、Forward Insightsの調査に対するSeagateの分析によれば、このような展開において、エンタープライズ・ハードディスク・ドライブでは、テラバイトあたりの取得コストが劇的に削減され、現在SSDの7分の1以下になっています。特にキャッシュ効率と耐久性が考慮される場合、この差はアーキテクチャの選択に大きな影響を与える可能性があります。
最終的なアーキテクチャでは、Seagateの低容量エンタープライズ・ハードディスク・ドライブを永続キャッシュ・レイヤーとして導入し、プライマリ・アプリケーション・レイヤーと大容量ハードディスク・ドライブ・ベースのクラウド・レイヤーの間に配置しました。この構成は、チームが他のワークロードですでに使用していたエンクロージャを使用して構築され、効率的なシステムの再利用を可能にしました。
仕組みは以下のとおりです。
キャッシング層のドライブは通常、使用可能なキャッシュ・スペースのためにプラッタの外径を優先して動作し、書込み動作を最適化し、用途に合わせて効果的なパフォーマンスを最大化します。
このアーキテクチャ図は、ハードディスク・ドライブ・ベースのキャッシュ、ディープ・ストレージ、およびアプリケーション・サービスがどのように連携し、バイラル・データ・バーストを効率的かつコスト効率よく処理するかを示しています。
この導入により、インフラ全体のコストとエネルギー効率が大幅に改善されました。また、持続的なスループット、書込み耐久性、プレッシャー下でのデータ可用性、大規模展開のために設計されたドライブにより、ワークロードのハイパフォーマンス要求も維持することができました。
推論やデータ・ステージングのワークロードのほとんどは、生のレイテンシーよりもコスト、電力、規模によって制約されるため、ハードディスク・ドライブが適切なアーキテクチャ層に実用的に適合します。
この発表の時点では、このプラットフォーム・アーキテクチャはお客様によって主要地域に積極的に展開されており、より広範な展開について継続的に評価されています。初期の指標は良好で、キャッシュ・パフォーマンス指標は安定し、ユーザー・エクスペリエンスは応答性を維持し、TCOは改善されました。
パイロットの結果が維持されれば、プラットフォームはこのモデルを大幅に拡大する可能性があります。年間導入量としては、ドライブの数量が6桁に到達する可能性があります。これは、年間6EB以上の需要と、大規模にパフォーマンスと効率を提供するハードディスク・ドライブに対する信頼を反映しています。
これは単なる一過性の最適化ではなく、エンドユーザーの並行処理と関連性がインフラ要件を推進し、プラットフォームの収益性向上を可能にする、画像、マイクロブログ、動画、その他のコンテンツのより良い共有を構築するための新たなパターンです。
この設計の成功は、何かひとつのブレークスルーにかかっているのではなく、他のAIプラットフォーム・ビルダーと共鳴する3つの基本原則にかかっています。
ここではハードディスク・ドライブがフラッシュに「勝った」のではなく、単に理にかなっていただけです。現実の環境におけるパフォーマンス、コスト、運用効率の調整は、このようになります。エンタープライズ/クラウド・インフラストラクチャ全体において、スループット、効率性、規模が最も重要となるデータ・ワークロードの大部分に対応し続けています。
パフォーマンスのニーズを満たすため、現代のワークロードには、拡張可能なコンピューティングとストレージの両方が必要です。特に、モデルの成功は、エンドユーザーとの継続的な関連性を即座に確保できるかどうかにかかっています。
AIをはじめとする最新のワークロードが業界全体のインフラ設計を形作り続ける中、問題はハードディスク・ドライブとフラッシュのどちらを使うかではありません。問題となるのは、実際のワークロードの挙動、実際の制約、実際の最適化の機会を反映したシステムを構築する方法です。
この大手グローバル・クラウド・サービス・プロバイダは、ハードディスク・ドライブが単に適切であるだけでなく、最新のアーキテクチャがスケールアップできるように進化する上での中心的存在であり、ピーク需要時にも対応できるデータ・アクセスと可用性を保証するものであることを証明しました。
相互NDAにより匿名化。
S3暗号化により、クラウド・ストレージ・インフラストラクチャの保護を強化できます。S3暗号化の種類とセットアップ方法について詳しくご覧ください。