Perspective

28 6月, 2025

企業資料中心

當規模要求性能時:全球雲端服務供應商如何利用硬碟滿足這兩種需求

Perspective

兩隻手分別握著智慧型手機,會顯示文字、豎起大拇指、心形等圖示代表各種數位活動

隨著多租戶和高效能需求重塑資料基礎架構,其中最重要的轉變不僅發生在訓練叢集上,也發生在即時回應數十億次使用者互動的系統中。

在全球最大的網際網路巨頭之一1基礎架構架構師最近著手重新構想與使用者互動相關的關鍵工作負載,即支援社群媒體評論活動的快取基礎架構 (例如可快速存取常用內容的臨時資料層)。風險相當高,快速新增的流量、高並行性和繁重的讀/寫入需求,也需要大規模降低成本和能源。該團隊找到了一個策略性但非傳統的解決方案,以低容量 Seagate 企業硬碟機為基礎的快取層。

有些人認為此層需要快閃記憶體,但工作量分析顯示硬碟機可滿足效能需求,同時提供顯著的成本和效率優勢,尤其適用於推論和資料暫存工作負載,相較於原始延遲,這些工作通常受到成本、功耗和規模的更多限制。

此架構說明當基礎架構決策以實際工作量行為為基礎時可能發生的情況,以及當策略性使用硬碟機時如何在全球範圍內實現高效、可擴展且符合成本效益的操作。

了解資料工作負載:短突發,高併發

工作量量的目標是在病毒式傳播的內容互動期間能快速可靠地存取使用者評論資料,而大規模的挑戰會迅速變得複雜。但需求的數量和波動性使其絕非尋常。

當一段內容像病毒般傳播時參與度會立即達到頂峰。數以千計到數百萬的使用者可以在幾分鐘內湧入同一個討論串點贊、回覆、更新和重新張貼。系統必須能支援小型物件讀取和寫入的快速風暴在達到頂峰然後以同樣快的速度下降。雖然效能很重要但只有在系統瓶頸允許發揮效能時才具有價值。

平台架構師需要支援

  • 短時間內達到極高的並行存取量。
  • 與使用者活動相關的大量讀取和寫入流量。
  • 提供快速回應快取的使用者體驗但沒有永遠開機的低延遲快閃記憶體。

傳統的熱/冷分層對於這種動態模式效率不彰。雖然快閃記憶體可以滿足效能需求但其成本、磨損和能源特性使其在此架構層不可持續。

吞吐量與延遲:重新思考雲端效能的資料緩存

人們普遍認為快取層 (尤其是面對使用者的系統) 必須以快取記憶體為基礎以符合效能需求。但在此案例中詳細的工作量分析顯示傳輸量(每秒讀取或寫入資料的速率) 和並行度 (同時處理許多請求的能力) 是限制因素而不是微秒級的延遲。硬碟機在這些方面都具有高效能而在,旨在發揮這些優勢的系統層級架構中 (透過平行處理、快取策略和智慧分層)在相同的工作負載下硬碟機的效能可勝過快閃記憶體配置 。

雲端供應商運用這些優勢組合能夠

  • 提供高循序與並行傳輸量。
  • 在短暫的密集高峰期間處理大量資料。
  • 以更低的成本和每 TB 的耗電量運作在資料中心用電和散熱預算日益受限的情況下這是一個有意義的考量。

根據 Seagate 對 IDC、TRENDFOCUS 和 Forward Insights 所做研究的分析顯示在這類部署中企業硬碟機的每 TB 採購成本大幅降低目前是 SSD 成本的 7 倍以上。這種差異可以對架構選擇產生有意義的影響,尤其是當快取效率和耐久性是等式的一部分時。

硬碟快取:可擴展、高效的資料存取解決方案

最終架構部署 Seagate 低容量企業硬碟機做為永久快取層,並將硬碟機置於主要應用程式層和高容量硬碟機機型雲端層之間。該配置是使用團隊在其他工作負載中使用的機殼建立的,因此可以有效地重複使用系統。

運作方式如下:

  • 在尖峰活動期間註釋資料會直接寫入硬碟機機型快取層。
  • 這種以硬碟機為基礎的資料層可提供所需的高傳輸量、高並行效能,以便在爆發期間在全球範圍內提供快速、可重複的存取。
  • 一旦需求逐漸減少快取資料就會被清除或移轉到以更高容量硬碟機 (例如24TB 或 30TB) 為基礎的更深儲存層。

快取層中的硬碟機在運作時通常會優先考慮其碟片的外徑,以獲得可用的快取空間、最佳化寫入行為並針對使用案例最大化有效效能。

平衡雲端儲存基礎架構的成本、功耗和效能

流程圖顯示了評論如何進入快取模組,在進入評論處理系統之前如何往返於快取層和雲端儲存。

此架構圖說明硬碟機快取處理、深度儲存和應用程式服務如何協同運作,以經濟實惠的方式有效處理病毒爆發的資料量。

這項部署大幅改善了整體基礎架構成本和能源效率同時透過專為持續傳輸量、寫入耐久性、壓力下的資料可用性和機群規模部署而設計的硬碟機來維持工作量的高效能需求。

  • 與使用快閃記憶體的硬碟機相比,使用容量較低的企業硬碟機可提供所需的效能而每 TB 採購成本大幅降低。
  • 每單位傳輸量的耗電量下降,因為硬碟機是針對持續寫入突發而非閒置IOPS 進行最佳化。一般而言,系統層級的比較也顯示與 QLC 快閃記憶體相比,硬碟機每 TB 的耗電量最多可減少 70%。
  • 團隊得以重新利用現有的基礎架構將新硬體投資降到最低並加快部署時間表。
  • 重要的是以硬碟機為基礎的快取層持續達到或超過預期命中率,即使在最熱門的流量高峰期也能支援順暢的評論參與。

大部分的推論和資料暫存工作負載較受限於原始延遲,更受成本、功耗和規模的限制,因此在適當的架構層級中硬碟機是相當實用的選擇。

擴展雲端緩存:從試點成功到全球平台標準

本報告發佈時客戶已在主要地區積極部署此平台架構並持續評估更廣泛的部署情況。早期的指標相當強勁快取效能指標維持穩定使用者體驗反應靈敏且 TCO 有所改善。

如果試驗結果繼續維持,該平台可能會大幅擴展此模型 - 潛在的年度部署量達到六位數的硬碟機數量,反映出每年超過 6EB 的需求以及對硬碟機以機群規模提供效能和效率的信心。

這不是一次性的最佳化,而是一種新興模式可建立更好的影像共享、微博、視訊和其他內容讓終端使用者的並行性和相關性硬碟機基礎架構需求並提高平台的獲利能力。

建構可擴展、經濟高效的雲端快取架構的關鍵經驗教訓

此設計的成功不在於任何單一突破,而在於三個核心原則將與其他 AI 平台建置商產生共鳴

  • 專為工作量所設計並非假設而是因為並非每個高效能層都需要快閃記憶體。
  • 效能的關鍵層面例如傳輸量、並行度、寫入可用性、接收速度和系統使用率通常比原始延遲更重要。
  • 可將儲存層最佳化甚至重複使用更有效地滿足現代需求。

在這裡硬碟機並沒有「贏得」快閃記憶體—它們只是合理。這就是在真實環境中調整效能、成本和營運效率的方式。在整個企業和雲端基礎架構中它們繼續為絕大多數的資料工作負載提供服務,這些傳輸量、效率和規模最重要。

最後的想法:建構反映實際工作負載的雲端基礎設施

為了滿足效能需求現代工作負載需要,可擴充的運算和儲存裝置尤其是因為模型的成功取決於立即、持續的終端使用者相關性。

AI 和其他現代工作負載持續影響各行各業的基礎架構設計,問題已不再是該使用硬碟機還是快閃記憶體。這說明如何建置系統以反映真實的工作量行為、真實的限制條件和真實的最佳化機會。

這家全球領先的雲端服務供應商證明了硬碟機不只是相關而已,它是現代架構演進以擴大規模的方式的核心,即使在尖峰需求下也能確保資料存取和可用性。

補充說明

依據相互 NDA 匿名化。

相關主題:

Cloud Data Center