依據 Praveen Viraraghavan

03 3月, 2025

AI

AI 基礎架構不斷演變的儲存需求。

PraveenViraraghavan

AI 儲存解決方案必須不斷演變才能因應大量成長的資料。雙驅動臂硬碟機、NVMe 型儲存裝置和節能解決方案等創新技術正在塑造 AI 基礎架構的未來。

目錄

隨著人工智慧 (AI) 不斷進步,支援 AI 的基礎架構也必須進化,以因應不斷增加的資料儲存和處理需求。資料儲存在 AI 基礎架構生命週期中扮演關鍵角色,因此解決方案必須能夠承受目前和未來的 AI 挑戰。

每天產生的資料量相當驚人。根據 Kaleido Intelligence 報告,智慧城市每天產生 143PB 的資料1以及產生數 TB 資料量的自動駕駛車輛對高效率資料儲存解決方案的需求比以往更加迫切。自動駕駛汽車公司會將大量資料上傳到雲端服務供應商,雲端服務供應商會處理資料並用來改善 AI 模型。這種持續不斷的資料流需要強大的儲存解決方案,才能處理 AI 應用所需的大量資料和速度。

效能 vs. 功耗。

儘管焦點放在圖形處理器 (GPU) 等尖端技術上,但硬碟機仍是 AI 基礎架構的重要元件。他們提供 AI 訓練所使用的大量資料集所需的儲存容量和推論。繁重的資料處理作業由 GPU 處理,而硬碟機則負責儲存這些流程所需的資料。這種共生關係可確保 AI 系統能有效率地運作而不會受到儲存限制的瓶頸。

AI 基礎架構的最大挑戰之一就是如何在效能和耗電量之間取得平衡。隨著 GPU 叢集的成長,執行這些叢集所需的電力也會大幅增加。舉例來說,像 AI 領導者的大型部署會涉及數千個 GPU,每個都會消耗大量電力。因此儲存解決方案不僅要提供高效能,還要在用電方面有效率地運作。從這個角度來看單一 GPU 可能會耗用高達 700 瓦的電力,大規模部署可能會涉及多達 100,000 個 GPU,因此需要 70 兆瓦的電力。此部分相當於大型資料中心的總用電量分配。因此儲存解決方案的設計必須盡量減少耗電量,同時盡可能提高效能,才能與 GPU 一同融入解決方案。

檢查點的重要性。

在 AI 訓練中,檢查點是避免因系統故障而遺失進度的關鍵。這些檢查點會定期 (例如每隔幾分鐘) 儲存 AI 模型的狀態,讓訓練程序從上次儲存的狀態繼續進行,而非重頭開始。這對於持續數週甚至數月的長期訓練課程尤其重要。高效的檢查點設定需要能夠快速儲存和擷取大量資料的快速儲存解決方案。

例如某些大型訓練平台在訓練期間每分鐘都會執行檢查點,將資料儲存至固態硬碟機 (SSD),再將資料傳輸至硬碟機。此程序可確保即使發生故障也能繼續訓練,並將資料遺失降至最低。這些檢查點的規模可能相當龐大,有些機型每個檢查點需要高達 12TB 的儲存空間。

硬碟機的擴充性、成本效益、電源效率、永續性和壽命是 AI 檢查點的關鍵所在。

未來趨勢與創新。

展望未來對 AI 儲存裝置的需求預計將呈指數成長。根據 Bloomberg Intelligence、IDC、eMarketer 和 Statista 的資料2,預計到 2032 年 AI 儲存市場將達到 920 億美元。這主要是因為 AI 模型越來越複雜,以及 AI 在各行各業的使用範圍都持續擴大。為了滿足這些需求,儲存解決方案必須變得更加精密,以便提供更高的容量、更快的速度以及更佳的能源效率。

目前有幾項創新技術正在探索階段,以因應 AI 基礎架構的儲存需求。

  • 磁錄密度成長。透過革新磁頭和裝置的介質,得以用相同的規格尺寸提供更大的容量佔地空間,使得硬碟機能不斷持續成長。支援 Mozaic 的硬碟是世界上最高效的硬碟儲存裝置,能夠降低採購和營運成本,同時提高生產力。隨著 Mozaic 磁錄密度的增加,客戶可以儲存更多資料,而無需增加空間、耗電量或自然資源的消耗。Mozaic 3+ 還可以將每 TB 的碳排放量減少 55%,從而幫助客戶實現永續發展目標,這也是大型資料中心的首要任務3
  • 雙驅動臂硬碟機。本系列硬碟機使用兩個驅動臂同時讀取和寫入資料藉此提升效能。如此可大幅提升資料傳輸量讓處理 AI 應用程式產生的大量資料變得更加輕鬆。
  • NVMe 型硬碟機。相較於傳統的 SATA (序列進階技術連接) 或 SAS 介面 (序列式 SCSI [小型電腦系統介面]) 非揮發性記憶體 (NVMe) 技術的資料存取速度更快。透過採用 NVMe 型硬碟機資料中心可以達到更高的效能和更低的延遲這對 AI 工作負載來說至關重要。
  • 光學互連。隨著資料傳輸速率提高傳統銅互連可能會成為瓶頸。光學互連提供更高的頻寬和更低的延遲讓儲存裝置和處理單元之間的資料移動速度更快。
  • 高效節能儲存解決方案.隨著 AI 基礎架構的用電需求不斷成長儲存解決方案必須更加節能。其中包括開發耗電量更低,同時維持高效能的硬碟機,以及探索新的冷卻技術,以管理大規模部署所產生的熱氣。

不斷演變的 AI 儲存需求。

受資料爆炸性的成長和 AI 模型複雜度的提升,推動 AI 基礎架構的儲存需求快速演變。在我們向前邁進的過程中,開發能夠跟上這些需求的儲存解決方案至關重要,如此 AI 系統才能繼續發展,並實現其改變產業和改善生活的承諾。

 


 

  1. 行動物聯網連線系列智慧城市商機與預測 Kaleido Intelligence2023 https://kaleidointelligence.com/smart-cities-2027/
  2. 2032 年衍生式 AI 市場將達到 1.3 兆美元 (Research Finds)、Bloomberg Intelligence, 2023, https://www.bloomberg.com/company/press/generation-ai-to-become-a-1-3-trillion-market-by-2032-research-finds/
  3. 比較 30TB Mozaic 3+ 硬碟機與 16TB 傳統 PMR 硬碟機。隱含碳足跡所包含的排放量來源包括了原料開採、產品製造/組裝,以及材料從開採到製造再到顧客手上之間的所有運輸作業。
Praveen Viraraghavan bio photo

Praveen Viraraghavan

Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.