Perspective

17 3月, 2025

引领创新

NVMe 硬盘与 AI 存储的未来

Perspective

NVMe 硬盘和存储的未来

AI 数据存储日益严峻的挑战

人工智能正在推动各行各业的突破性变革,从医疗保健诊断、财务建模到自动驾驶汽车和大规模自动化无所不及。然而,随着 AI 系统越来越复杂,对数据存储的需求呈指数级增长,从而在可扩展性、效率和成本方面带来了挑战。

机器学习数据集如今需要以 PB(拍字节)为单位的存储空间,一些企业甚至管理着 EB(艾字节)级的数据集,以跟上不断发展的 AI 模型。必须高效存储、检索和处理这些海量数据集,以支持模型训练和推理。人工智能背后的存储基础结构不再只是一个 IT 问题,它已成为 AI 创新本身的核心推动力。

尽管人工智能计算取得了长足的进步,但传统存储架构在满足数据量大的 GPU 所需规模方面变得复杂而昂贵,从而开始限制减缓人工智能的采用。原因有以下三个:

首先,虽然基于 SSD 的架构可提供高速性能,但其高昂的购置成本使其对于 AI 训练工作负载的大规模存储需求不切实际。对于大多数企业而言,仅在固态硬盘上保留大型数据集在经济上不可持续。

其次,虽然 SAS/SATA 硬盘系统持续为许多企业应用提供可靠且经济高效的存储,但 AI 工作负荷对存储基础结构提出了独特的要求。SAS/SATA 接口依赖于专有硅、主机总线适配器 (HBA) 和控制器架构,而这些芯片最初并非针对 AI 工作负载的高吞吐量、低延迟需求而设计。随着 AI 采用扩展,这些因素可能会带来复杂性和额外的延迟,使 AI 模型更难以快速访问海量数据集。

最后,依赖于云存储的 AI 工作负载通常会遇到高昂的 WAN 数据传输成本、延迟峰值和检索时间不可预测的情况。这些低效问题限制了 AI 模型的响应能力,并在处理硬件等待远程数据时增加了运营支出。

因此,随着 AI 的不断扩展,需要一种新的方法来补充现有的存储架构,同时平衡容量、成本和速度以不折不扣地支持 AI 的训练和推理。

新方法:用于 AI 工作负载的 NVMe 硬盘 

Seagate 将 NVMe 技术应用于高容量硬盘,开创了一种转型解决方案。Seagate 将 NVMe 开发为未来硬盘连接的标准协议,提供了一种替代方案,旨在优化 AI 数据管道在减少存储瓶颈的同时保持硬盘的经济性和密度优势。

与基于 SAS/SATA 的硬盘不同,NVMe 硬盘消除了对 HBA、协议网桥和其他 SAS 基础架构的需求,使 AI 存储更加精简。这些硬盘在统一的 NVMe 架构中集成高密度硬盘存储与高速 SSD 缓存,实现了 AI 工作负载的无缝扩展。

这种转变会提供显着优势。首先,通过消除至处理器接口的硬件适配器,NVMe 硬盘简化了 AI 存储部署,使组织无需专用控制器即可构建大规模 AI 存储环境。其次,借助统一的 NVMe 驱动程序和操作系统堆栈,这些硬盘确保机械硬盘与固态硬盘高效协同工作,无需额外的软件层。

其中最关键的优势之一是,通过 DPU 实现 GPU 到存储的直接数据访问,从而避开了 CPU 瓶颈。传统存储架构通过 CPU 驱动的管道路由数据,从而产生延迟问题。NVMe 硬盘可以消除这种效率低下的问题,使 AI 模型能够摄取和处理海量数据集并显著减少延迟。

此外,NVMe over Fabrics (NVMe-oF) 使 NVMe 硬盘能够集成到分布式 AI 存储架构中,确保在高性能数据中心网络中无缝扩展。此功能对需要灵活且可组合存储解决方案的企业而言,尤其有利于 AI 工作流。

将 NVMe 硬盘与固态硬盘一起使用,组织将能够在优化成本的同时保持性能,为活动数据集预留固态硬盘并使用硬盘进行长期 AI 训练数据保留。

Seagate's demonstration of a storage array unifying around NVMe.

面向未来:Seagate 的 NVMe 硬盘概念验证

为了展示 NVMe 硬盘的潜在现实影响,Seagate 进行了概念验证 (POC),集成了 NVMe 硬盘、NVMe SSD、NVIDIA BlueField DPU 和 AIStore 软件,展示了一个高效的 AI 存储生态系统。

本 POC 强调了 NVMe 硬盘在 AI 工作流中的主要优势,并提供了 NVMe 硬盘可在大规模 AI 存储环境中产生重大影响的证据。

  • 工程师们证明,通过 NVMe 硬盘和 DPUs 的 GPU 到存储的直接通信,有助于减少 AI 数据工作流中与存储相关的延迟。
  • 消除了传统 SAS/SATA 开销,从而简化了系统架构并提高了存储效率。
  • AIStore 动态优化了缓存和分层,增强模型训练性能,同时将存储聚合和可扩展性简化至 EB 级。
  • NVMe-oF 集成实现了无缝扩展,证明了多机架 AI 存储集群的可组合性。

通过此 POC,Seagate 将展示 NVMe 硬盘如何支持全球要求最严苛的 AI 工作负载且无需全闪存架构。

实际影响:AI 存储的实际应用

Seagate 正在利用其十年在其智能工厂中部署 AI 模型的经验,在实际 AI 工作负荷中验证 NVMe 硬盘。

在 Seagate 的量子天线生产设施中,AI 驱动型缺陷检测依赖于高速图像摄取和快速检索进行模型训练和持续改进。应用从自身的 AI 生产环境中获得的见解,Seagate 正在探索 NVMe 硬盘如何提供支持实时处理和长期保留的可扩展和经济高效的存储,从而实现这一过程。

  • 无需进行有损数据压缩即可存储高清图像。
  • 高效的长期存储 AI 训练数据集。
  • 无缝访问 AI 模型重新训练和持续改进。

Seagate 通过探索将 NVMe 硬盘集成到存储架构中,展示了新技术如何降低 AI 存储成本,同时确保对 AI 缺陷检测的实时响应。由此获得的效率提升包括更快的 AI 驱动型分析、更高的准确性和更低的基础架构成本。

除制造业外,NVMe 硬盘还在自动驾驶汽车、医疗保健成像、财务分析和超大规模云 AI 平台中有应用。

可持续性和成本节省:NVMe 硬盘的优势

AI 基础架构会消耗大量电力,因此可持续性成为人们日益关注的问题。Seagate 与 NVMe 硬盘的合作探索了一种经济且节能的固态硬盘架构替代方案。

与固态硬盘相比,NVMe 硬盘将提供

  • 每 TB 碳排放效率提高 10 倍,显著降低环境影响。
  • 每 TB 运营功耗降低 4 倍,从而降低 AI 数据中心能源成本。
  • 显著降低每 TB 的成本,大规模降低 AI 存储的总体拥有成本。

随着 AI 基础设施的扩展,可持续存储将成为降低成本和环境影响的关键因素。Seagate 的发展路线图包括持续提高 NVMe硬盘效率,以帮助各组织在扩展 AI 存储的同时实现长期可持续性目标。

AI 存储未来的发展路线图

Seagate 正在开发创新技术,以支持下一代 AI 就绪存储基础结构,同时紧跟行业趋势以及超大规模和云环境的需求。

路线图包括

  • 扩展 Mozaic 平台(目前已推出 36TB 硬盘),以研发更高容量的 NVMe 硬盘。
  • 推进 NVMe-oF 支持,使 AI 工作负载在混合环境中无缝扩展。
  • 创建参考架构,确保 AI 开发人员可以轻松部署优化的存储解决方案。

Seagate 正在与客户和合作伙伴合作探索 NVMe 硬盘如何融入下一代 AI 存储解决方案,确保企业经济高效地满足 AI 存储需求。

Seagate 对 AI 存储未来的承诺

AI 正在改变各个行业,但许多组织都在努力应对数据管理的复杂性和不断上升的存储成本。可扩展和高效的存储对于保持 AI 不断创新至关重要。

Seagate 在 NVMe 硬盘方面的工作展示了 NVMe 连接性如何降低存储部署复杂性,同时保持硬盘的成本和密度优势。

通过在其 POC 中实现 AIStore 集成、NVMe-oF 可扩展性和 GPU 优化的存储路径,Seagate 正在引领下一波 AI 基础设施创新。

随着 AI 对各个行业的重塑,Seagate 正在重新定义 AI 存储基础结构如何扩展以满足不断增长的数据存储需求。