数据存储是机器学习和 AI 的关键驱动力量
03 4月, 2025
人工智能 (AI) 和机器学习 (ML) 推动了变革性突破,从预测蛋白质结构到实现实时语言翻译等。这些创新的核心是对高质量数据的无限需求。AI 模型在庞大的数据集上蓬勃发展,但如果没有可靠且经济高效的数据存储,这些模型及其生成的洞察将无法发挥其潜力。
正如氧气维持人类生命,数据存储支撑着 AI 的发展。高效存储、访问及处理数据的能力决定了 AI 模型的训练和优化效率。然而,随着对 AI 驱动型解决方案需求的增长,管理 AI 数据生命周期(从收集、存储到处理)相关的挑战也在增加,同时还要控制成本和复杂性。
数据科学已经从电子表格和简单分析发展成为由机器学习驱动的强大洞察。根据美国劳工部的数据,目前有超过 200,000 个数据科学工作岗位,预计在未来十年将增长 36%。各行各业的领域专家正在将 AI 工具融入他们的工作流程中,即便没有接受过正式的数据科学培训,也能借助无代码平台以前所未有的速度构建模型、分析数据。
但原始数据本身并无用处。在将数据输入 AI 模型之前,必须对数据进行结构化、清理和标记处理,这个过程通常称为数据整理。开源工具例,如Pandas,有助于将海量数据集转换为 AI 模型可以使用的结构化格式。但是这个过程需要快速、高效的本地数据存储,才能避免减缓模型开发的瓶颈。
AI 训练数据的庞大体量带来了巨大的运维挑战。存储和管理大型数据集不仅仅关乎容量,还关乎成本、合规性和可访问性。
AI 数据管理的一些重大挑战包括:
传统的集中式存储方法受到地理位置分散的数据源所带来的挑战。越来越多的 AI 从业者正在转向本地化的边缘存储解决方案,以实现更好的控制、更低的成本和更少的延迟。
组织可以在更接近数据生成的位置处理和存储 AI 数据,而不是将大量数据集传输到集中式云服务器。这种方法通常称为边缘计算,可在提高性能的同时最大限度地减少数据移动成本。
一种经济高效的解决方案是小型混合 NAS 系统,可为 AI 工作负载提供本地高性能存储。与传统 NAS 不同,这些系统集成了 Jupyter Notebook 等容器化 AI 工具,助力领域专家和 AI 开发人员直接基于存储系统本身进行协作。通过消除对持续数据传输的需求,这些 NAS 解决方案降低了运营成本,同时加速了 AI 开发。
在边缘处理 AI 数据还可以让组织更好地控制其数据集。维护对 AI 训练数据的自主权,确保符合行业法规,并降低与第三方存储相关的风险。借助这种方法,将数据保存在收集和分析的位置,使得 AI 工作流更加高效。
边缘计算为 AI 开发提供多种优势:
为了探索在本地化存储上运行 AI 工作负载的可行性,我们构建了一个三节点 NAS 集群,并对其存储性能进行了评估。
我们首先评估了单节点性能,以确定吞吐量基准。对于大型数据传输,该系统在每 2.5GE 链路上实现了 200MB/秒的传输速度。
接下来我们分析了多节点复制如何影响性能。尽管数据复制增加了网络流量,但对读取性能的影响极小,这对于需要在多个节点间保持数据一致性的工作负载而言是一个关键优势。
网络性能测试显示,添加第二条 2.5GE 链路仅带来轻微的写入性能提升,而 10GE 网络在某些特定场景下则显著改善了性能。
为了模拟 AI 工作流程,我们在该 NAS 系统上测试了一个真实的机器学习任务。我们使用包含 500 张带标签图像的数据集训练了一个船只分类模型,在本地运行特征提取和模型训练过程。
将图像存储在带有元数据标签的对象存储桶中后,我们使用 PyTorch Img2Vec 从每张图像中提取特征,然后训练随机森林分类器。生成的模型在一分钟内达到了 78% 的准确率。
本次测试的主要观察结果包括:
本次实验表明,本地化 NAS 存储可以作为一种高性价比的 AI 数据中心,既能降低对云服务的依赖,又能提升数据访问性和系统性能。
总结:AI 存储必须不断演进
AI 的未来依赖于高效、具成本效益且可扩展的数据存储解决方案。随着数据量持续增长,组织必须重新思考如何存储和管理 AI 数据集。
本地化 NAS 解决方案为昂贵的云存储提供了一个切实可行的替代方案,使 AI 团队能够:
正如氧气维持生命,数据存储支撑着 AI 创新。让 AI 就绪的存储变得更易获取、更具性价比且性能更高,能够帮助组织加速实现以 AI 为驱动的突破性成果。
Seagate 首席商务官 B.S.Teh 出席路透社 Momentum AI Asia 2025 大会