AI 基礎架構不斷演變的儲存需求。
03 3月, 2025
AI 儲存解決方案必須不斷演變才能因應大量成長的資料。雙驅動臂硬碟機、NVMe 型儲存裝置和節能解決方案等創新技術正在塑造 AI 基礎架構的未來。
隨著人工智慧 (AI) 不斷進步,支援 AI 的基礎架構也必須進化,以因應不斷增加的資料儲存和處理需求。資料儲存在 AI 基礎架構生命週期中扮演關鍵角色,因此解決方案必須能夠承受目前和未來的 AI 挑戰。
每天產生的資料量相當驚人。根據 Kaleido Intelligence 報告,智慧城市每天產生 143PB 的資料1以及產生數 TB 資料量的自動駕駛車輛對高效率資料儲存解決方案的需求比以往更加迫切。自動駕駛汽車公司會將大量資料上傳到雲端服務供應商,雲端服務供應商會處理資料並用來改善 AI 模型。這種持續不斷的資料流需要強大的儲存解決方案,才能處理 AI 應用所需的大量資料和速度。
儘管焦點放在圖形處理器 (GPU) 等尖端技術上,但硬碟機仍是 AI 基礎架構的重要元件。他們提供 AI 訓練所使用的大量資料集所需的儲存容量和推論。繁重的資料處理作業由 GPU 處理,而硬碟機則負責儲存這些流程所需的資料。這種共生關係可確保 AI 系統能有效率地運作而不會受到儲存限制的瓶頸。
AI 基礎架構的最大挑戰之一就是如何在效能和耗電量之間取得平衡。隨著 GPU 叢集的成長,執行這些叢集所需的電力也會大幅增加。舉例來說,像 AI 領導者的大型部署會涉及數千個 GPU,每個都會消耗大量電力。因此儲存解決方案不僅要提供高效能,還要在用電方面有效率地運作。從這個角度來看單一 GPU 可能會耗用高達 700 瓦的電力,大規模部署可能會涉及多達 100,000 個 GPU,因此需要 70 兆瓦的電力。此部分相當於大型資料中心的總用電量分配。因此儲存解決方案的設計必須盡量減少耗電量,同時盡可能提高效能,才能與 GPU 一同融入解決方案。
在 AI 訓練中,檢查點是避免因系統故障而遺失進度的關鍵。這些檢查點會定期 (例如每隔幾分鐘) 儲存 AI 模型的狀態,讓訓練程序從上次儲存的狀態繼續進行,而非重頭開始。這對於持續數週甚至數月的長期訓練課程尤其重要。高效的檢查點設定需要能夠快速儲存和擷取大量資料的快速儲存解決方案。
例如某些大型訓練平台在訓練期間每分鐘都會執行檢查點,將資料儲存至固態硬碟機 (SSD),再將資料傳輸至硬碟機。此程序可確保即使發生故障也能繼續訓練,並將資料遺失降至最低。這些檢查點的規模可能相當龐大,有些機型每個檢查點需要高達 12TB 的儲存空間。
硬碟機的擴充性、成本效益、電源效率、永續性和壽命是 AI 檢查點的關鍵所在。
展望未來對 AI 儲存裝置的需求預計將呈指數成長。根據 Bloomberg Intelligence、IDC、eMarketer 和 Statista 的資料2,預計到 2032 年 AI 儲存市場將達到 920 億美元。這主要是因為 AI 模型越來越複雜,以及 AI 在各行各業的使用範圍都持續擴大。為了滿足這些需求,儲存解決方案必須變得更加精密,以便提供更高的容量、更快的速度以及更佳的能源效率。
目前有幾項創新技術正在探索階段,以因應 AI 基礎架構的儲存需求。
受資料爆炸性的成長和 AI 模型複雜度的提升,推動 AI 基礎架構的儲存需求快速演變。在我們向前邁進的過程中,開發能夠跟上這些需求的儲存解決方案至關重要,如此 AI 系統才能繼續發展,並實現其改變產業和改善生活的承諾。
Praveen Viraraghavan
Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.