AI 中的检查点
06 1月, 2025
硬盘通过保存透明、可追踪的训练里程碑来支持 AI 可靠性。
人工智能 (AI) 发展迅速,已经在医疗保健、金融等众多领域中发挥着不可或缺的作用。AI 成功的核心是能够以产生可靠结果的方式处理海量数据集。
一些成功的公司希望使用 AI 或已经在使用 AI。但他们不只是专注于实施 AI,他们还想要值得信赖的 AI 模型、过程和结果。他们需要可以信赖的 AI。
支持 AI 模型开发的一个关键过程是 AI 检查点。这本入门读物解释了什么是 AI 检查点、它如何适用于 AI 工作负载以及为什么它对于构建可信赖的 AI(即使用可靠输入并生成可靠见解的 AI 数据工作流)至关重要。
检查点是在训练期间以特定的较短时间间隔保存 AI 模型状态的过程。AI 模型是在大型数据集上通过迭代过程训练出来的,而这个过程可能需要几分钟到几个月的时间。模型的训练持续时间取决于模型的复杂性、数据集的大小以及可用的计算能力。在此期间,会为模型提供数据和调整参数,同时系统学习如何根据其处理的信息来预测结果。
AI 检查点相当于模型在训练过程中许多时刻的当时状态的快照,记录了其数据、参数和设置信息。快照每隔几分钟到几分钟就会保存到存储设备中,使开发人员可以保留模型进程的记录并避免由于意外中断而丢失宝贵的工作。
随着 AI 应用扩展到传统数据中心之外,它们越来越需要高容量和高性能。无论是在云端还是在本地,AI 工作流都依赖于可提供大容量和高性能的大容量存储解决方案,这两个特性对于支持检查点至关重要。
在 AI 数据中心中,GPU、中央处理单元 (CPU) 和张量处理单元 (TPU) 等处理器与高性能内存和固态硬盘 (SSD) 紧密结合,形成强大的计算引擎。这些配置可以承受训练中涉及的繁重数据负载,并随着模型的进展提供实时保存检查点所需的快速访问。
随着数据流经这些系统,检查点和其他关键信息将保留在联网存储集群或对象存储中。这些集群主要基于大容量硬盘构建,可确保检查点可以长期保存,以支持可扩展性和合规性需求。这种分层的存储基础架构使检查点能够高效工作,在快速访问与长期数据保留之间取得平衡。
AI 检查点通常以固定的时间间隔发生,从一分钟到几分钟不等,具体取决于训练作业的复杂性和需求。
常见的做法是每隔一分钟左右写入一次检查点,以确保 SSD 提供高速写入性能,允许在活动训练期间快速访问数据。由于 SSD 在长期的大容量存储方面不具有成本效益,因此新的检查点会覆盖之前的检查点以节省空间。
由于 AI 训练作业通常会在很长一段时间内生成大量数据,因此大容量存储至关重要。例如,每隔五分钟左右,AI 开发人员就会将检查点保存到企业硬盘一次,硬盘在确保随着时间的推移保留大量检查点数据方面发挥着关键作用。平均而言,硬盘与 SSD 的每 TB 成本之比超过 6:1,提供了最具可扩展性、最经济的解决方案,是确保 AI 值得信赖所需的大规模数据保留的唯一实用选择。
此外,随着频繁的写入周期,SSD 的性能会由于闪存单元的磨损而而下降,而传统硬盘使用的磁存储可以持续使用而不会损失完整性。这种耐用性使硬盘能够长期保持数据可靠性,使组织能够无限期保留检查点,并在部署模型后很长时间内重新访问和分析过去的训练运行,从而支持强大的 AI 开发和合规性需求。
AI 开发可以理解为一个循环过程,通常称为 AI 无限循环,强调数据获取、模型训练、内容创建、内容存储、数据保存和重用的各个阶段之间的持续交互。这一循环可确保 AI 系统随着时间的推移迭代改进。在此循环中,数据输入到 AI 模型中,一个阶段的输出成为后续阶段的输入,从而使模型以迭代方式持续优化。
这一过程从源数据开始,即收集原始数据集并为训练做好准备的地方。获得数据后,将用于训练模型,这就是检查点发挥作用的环节。如前所述,检查点可作为模型训练期间的保障,确保 AI 开发人员可以保存进度,避免因中断而丢失工作并优化模型开发。模型完成训练后,可用于创建内容,例如执行生成图像或分析文本等推理任务。然后将这些输出存储起来以供将来使用、满足合规要求和质量保证,然后数据会最终保存下来并重复使用,为 AI 模型的下一次迭代提供数据。
在此无限循环中,检查点是基本元素,尤其是在模型训练阶段。通过存储模型状态并在整个循环中保留数据,AI 系统可以在每个循环中变得更加可靠、透明和值得信赖。
AI 系统的存储需求巨大,随着模型变得更大、更复杂,对可扩展、经济高效的存储的需求也在增长。尤其是在数据中心架构中,硬盘成为了 AI 检查点存储的支柱,原因如下:
正如我们之前提到的,在某些 AI 工作负载中,检查点每分钟都会写入 SSD,但每次只会将第 5 个检查点推送到硬盘进行长期保留。这一混合方法优化了速度和存储效率。SSD 可以满足即时性能需求,而硬盘则可以保留数据以满足合规性、透明度和长期分析的所需。
在更广泛的 AI 开发背景下,检查电的作用对于确保 AI 输出的合法性至关重要。“可信赖的 AI”指的是能够构建准确、高效、透明、可说明和可解释的系统。AI 模型必须可靠并能够证明其输出的合理性。
最终,检查点为 AI 开发者提供了一种“展示作品”的机制。通过在整个训练过程的多个点保存模型的状态,检查点可以跟踪决策的制定过程、验证模型数据和参数的完整性并确定任何需要纠正的潜在问题或效率低下的地方。
此外,检查点通过确保可以审核 AI 系统来帮助建立信任。当前和未来的监管框架都要求 AI 系统是可解释的,并且其决策过程是可追踪的。检查点可通过保留模型训练过程、数据源和开发路径的详细记录,使组织能够满足这些需求。
检查点是 AI 工作负载中的基本工具,在保护训练作业、优化模型以及确保透明度和可靠性方面发挥着关键作用。随着 AI 继续推进并影响各行业的决策制定,对可扩展且经济高效的存储解决方案的需求从未如此强烈。硬盘是支持检查点过程的核心,使组织能够存储、访问和分析 AI 模型训练期间生成的大量数据。
通过利用检查点,AI 开发人员可以构建高效且值得信赖的模型。