21 5月, 2026
在 Seagate,我們的工程團隊與我會定期與全球最大的雲端與人工智慧基礎設施建設者進行交流。
除了為他們提供數 EB 級大容量硬碟外,我們還與他們並肩合作,幫助他們建立儲存架構。
透過這些合作關係,我得以近距離了解超大規模的儲存決策如何制定。共同點很明顯:經濟性、軟體編排和硬體能力必須協調一致,才能最大限度地提高效能、效率和數據價值。
隨著人工智慧工作負載不斷增加,資料集規模、存取頻率、上下文視窗、並行性、保留時間和對共享儲存系統的要求也越來越高,這種一致性變得更加重要。
規模上的這些變化從根本上改變了「主儲存」的含義。
從歷史上看,主儲存指的是緊密耦合的區塊儲存或檔案系統,它們位於計算區域附近。然而,在雲端運算和人工智慧環境中,主儲存越來越多地由軟體定義的全球分散式架構來定義,這些架構將物件儲存視為持久記錄系統,用於跨工作負載保留和提供大量資料。
為了更好地理解這種重新定義是如何展開的,讓我們來剖析最初塑造企業儲存的設計原則。
幾十年來,該生態系統一直遵循一個通用標準:可移植作業系統介面(POSIX)。POSIX 標準誕生於基礎架構更在地化的時代,它為開發人員提供了一個可預測的資料互動模型。
它強調了強大的讀寫一致性、同步檔案鎖定和分層目錄結構。對於單一機器或本地叢集而言,它非常有效,並且至今仍對許多企業和應用程式環境至關重要。
然而,隨著雲端運算模式的出現,權衡取捨的格局發生了變化。雲端規模系統的建構是為了滿足與 POSIX 優先系統最初設計所服務的規模、分佈模型和成本結構截然不同的需求。
在分散式環境中,POSIX 風格的實作可能需要跨節點進行大量的協調,以保持目錄語義、檔案鎖定和就地更新。
雲端平台需要大規模擴展——最終擴展到支援數十到數百艾位元組——在這種環境下,緊密耦合設計的協調開銷開始引入延遲,並對成長施加了實際限制。
在現代人工智慧工作負載需要更大的資料集、檢查點、標記處理、推理和高度並行的資料管道時,這些壓力只會加劇。
從 Google Cloud Storage (GCS) 和 Colossus 到 Microsoft Azure Blob、Amazon S3 和 Meta 的 Tectonic,整個產業都採用了專為全球分散式資料和超大規模工作負載而建構的軟體定義架構,並隨著規模和需求的演變而不斷改進。
在這種新模式下,軟體承擔了更多的編排、彈性和資料流方面的責任,以便盡可能有效地利用底層儲存媒體。
在我上面提到的那些雲端架構中,硬碟是大規模儲存資料的基礎。
這反映了容量的持久經濟性和高密度記錄的物理特性。現代大容量硬碟採用了疊瓦式磁記錄 (SMR) 和 熱輔助磁記錄 (HAMR) 等技術,不斷提高面密度,使 EB 級儲存成為可能。
在這種規模下,硬碟叢集充當記錄系統,提供其他儲存技術根本無法比擬的耐用性、成本效益和體積密度。
大型資料中心 87% 的 EB 資料都儲存在硬碟上是有原因的1!
隨著雲端環境的不斷擴展,以及人工智慧工作負載消耗、產生、保留和重複使用更多數據,這些優勢變得更加重要。
但只有當軟體架構的設計與大容量磁碟的優勢相符時,這些優勢才能充分發揮。
傳統的 POSIX 存取模式——尤其是在強調碎片化、隨機、就地更新的緊密耦合分散式檔案系統模型中——在極端規模下並不總是能很好地發揮這些優勢。
現代軟體定義雲端平台透過圍繞硬碟設計儲存堆疊來解決這個問題,使其能夠優先處理順序的高吞吐量資料流,同時支援可擴展的營運經濟性。
以 Amazon S3 為例,這項服務儲存 500 萬億個對象,每秒處理 2 億個請求——最近的 AWS re:Invent 主題演講2強調,雲端儲存效能的秘訣在於編寫針對硬碟功能進行最佳化的軟體——在演講中,硬碟被描述為「工程奇蹟」。
現代雲端架構的設計目的並非強迫硬碟適應為不同時代設計的軟體抽象,而是與現代高密度硬碟的優勢相輔相成。
這種工程設計有多種形式,但在主流雲端平台中,它通常體現了四個架構原則。它們共同表明,雲端儲存如何以軟體定義的方式管理資料流、元資料、彈性和攝取行為。
GCS 和 Amazon S3 等服務旨在支援物件不可變性和版本化更新。資料寫入物件儲存後,更新通常是透過寫入物件的新版本而不是就地修改現有物件來處理的。
透過減少對隨機、原地二進位寫入的需求,雲端規模架構將磁碟的更多工作負載轉移到大型順序資料流。這與大容量硬碟大規模提供吞吐量和效率的方式更加契合。在 AI 工作負載下,這種優勢變得更加重要,因為檢查點、資料集移動和平行管道會對共享儲存系統造成持續的壓力。
在傳統的 POSIX 環境中,儲存系統通常以緊密耦合的方式管理檔案元資料和檔案有效負載。超大規模雲端平台透過將元資料服務與容量儲存分離來改變這種狀況,將大部分追蹤和協調工作轉移到速度更快、可擴展性更強的控制層,而不是將這些負擔留給磁碟本身。
Google Cloud 的 Colossus 將大部分此類工作轉移到記憶體駐留服務中,而 Meta 的 Tectonic 將元資料(在分散式檔案系統模型中)分離成在水平可擴展的鍵值儲存上運行的無狀態微服務。這樣一來,底層硬碟的結構開銷就減少了,硬碟就有了更多機會大規模地提供高密度、高效的容量。
第三個原則是使用糾刪碼和廣泛的資料分發,使大規模儲存系統更具彈性和效率。
雲端架構透過糾刪碼和廣泛的資料分發來降低這種敏感性。透過將物件分散到多個磁碟上,這些系統可以隔離局部熱點,在短暫的延遲高峰期間繼續提供數據,並根據需要進行重建。這使得儲存層更具彈性,並有助於在混合雲和 AI 工作負載下維持吞吐量。
第四個原則是資料在到達容量媒體之前是如何進行暫存的。
為了彌合不可預測的應用流量與高密度硬碟最擅長處理的結構化環境之間的差距,現代架構採用多層資料路徑,結合快閃記憶體或記憶體來緩衝資料攝取並優化資料放置。
快閃記憶體層吸收來自 API 流量和應用程式寫入的可變到達速率。它會在資料移動到儲存媒體之前對其進行暫存和整理,從而允許後台進程以長時間的順序方式將其刷新到硬碟陣列。
在 AI 工作負載下,資料攝取、檢查點和資料集移動可能特別頻繁,因此這種緩衝作用變得更加重要,因為它有助於保持低延遲攝取和高效的硬碟利用率。
圖 1:比較傳統 POSIX 儲存軟體與雲端原生儲存軟體在發揮以硬碟為中心的儲存架構優勢方面的差異。
這些架構上的轉變共同重塑了主儲存的定義。從歷史上看,「主儲存」通常指的是昂貴、高可用性的區塊儲存或檔案系統,它們與運算緊密相連。物件儲存通常被視為歸檔、備份或輔助資料的較低層級目的地。
如今,許多雲端原生架構對主儲存的定義更加廣泛:無狀態運算與全域物件儲存結合。基於 S3、Azure 和 GCS 等平台建構的資料湖正日益成為大規模分析、雲端應用程式和 AI 工作流程的記錄系統。
在這種模式下,主儲存越來越依賴軟體定義,物件服務、元資料層、快閃記憶體緩衝和大容量硬碟作為一個協調的系統協同工作。
計算實例通常被視為更具彈性和無狀態的,它們從物件層提取數據,對其進行處理,並將結果寫回同一個共享環境。
過去十年,物件儲存對雲端架構的重要性日益凸顯,最近又對人工智慧工作流程產生了重要影響,由此出現了另一個重要趨勢:高效能平行檔案系統。
Lustre、Weka 和 VAST 等系統旨在最大限度地提高緊密耦合工作負載的性能,通常會公開符合 POSIX 標準的接口,以支援檢查點、協調和高吞吐量資料存取。
同時,物件儲存平台也在不斷發展——在優化全球可擴展性的同時,不斷提升效能,以支援不斷擴展的人工智慧和資料密集型工作負載。
在大規模雲端運算和人工智慧環境中,這些方法正在趨於融合。高效能檔案系統通常疊加在物件儲存後端之上,或分層到物件儲存後端之中,將活動工作集的效能與物件儲存作為記錄系統的可擴充性和經濟性相結合。
這種融合反映了更廣泛的架構轉變:現代系統不再在文件和物件之間做出選擇,而是將它們結合起來。它保留了資料夾、命名空間和熟悉的檔案行為的便利性,同時又不犧牲物件儲存的規模優勢。
綜合來看,這些轉變指向一個更廣泛的結論:雲端和人工智慧架構需要與 POSIX 優先模型最初設計時所追求的最佳化不同的軟體和系統權衡。
這些權衡取捨使得設計軟體以優化底層硬碟群組的使用變得特別重要,因為系統正是建立在這些硬碟群組之上的。從這個意義上講,雲端運算和人工智慧工作負載不僅改變了儲存架構,而且重新定義了主儲存本身。
對於基礎設施建構者來說,結論很明確:為現代系統進行設計意味著要超越主儲存必須與本機作業系統檔案樹完全對應這一假設。這意味著要選擇與大規模人工智慧的經濟性、物理性和工作負載實際情況相符的軟體和存取模式。
能夠正確處理這個問題的組織將更有能力有效率地執行人工智慧策略,獲得更高的 GPU 利用率、更好的推理經濟效益和更少的效能瓶頸。
了解更多為全球最大的人工智慧和雲端基礎設施建構者提供主儲存的硬碟創新技術。
資料來源
1.IDC Datasphere 和 IDC Storagesphere
2.AWS re:Invent 2025,Andy Warfield 主題演講:S3 儲存超過 500 兆個對象,每秒處理 2 億個請求,每年處理超過 1 千萬億個請求。
雲端行銷資深副總裁