保护数据:从信任根到溯源追踪

保护数据

人工智能 (AI)、机器学习 (ML) 和云计算正在从根本上改变 IT 的风险模型。过去,企业数据一直位于企业实际控制下的集中式基础架构上,现在则经常存储在其他位置,如边缘或云端。从根本上而言,威胁模型会随着分布式和组合式基础架构而改变。因此,数据编排架构中必须包含其他安全措施(例如基于硬件的信任根和开放式安全解决方案),以提供超出物理数据中心边际的安全性。

“例如,在边缘,威胁模型包括对设备未经授权的物理访问—甚至可能没人注意到”,Seagate 数据安全研究员 Manuel Offenberg 说道。

保护分布式数据

如今,企业数据存储在公有云和混合云中。数据在远程设备上生成并从远程设备进行传输。单个企业实际上无法保护他们所使用的所有设备、网络装置及其他分布式基础架构。

因此,保护分布式架构中的数据变得日益重要起来。许多常用的安全防控措施非常适合保护数据的机密性。强加密可以保护传输中和静止的数据。其他一些加密工具(例如消息摘要)则可以帮助保护数据的完整性。

而现在,随着 AI 和 ML 的重要性日益提高,对确保数据真实性的要求也在与日俱增。

长期以来,不断有新的工具在试图利用系统和软件存在的漏洞。但今天,攻击者有了一种新的方法,那就是攻击我们的 ML/AI 系统。通过入侵这些系统的数据,攻击者可以利用 ML/AI 技术的弱点进行恶意攻击。

不过,ML/AI 也可以帮助我们对抗黑客。ML 算法在许多情况下可用于检测恶意行为。以信用卡行业为例,ML 被用于分析大量的合法和欺诈交易。用于训练算法的数据样本中可能包含许多属性,例如购买的产品类型、交易地点、收费金额以及有关客户和商家的特定属性。ML 算法会识别数据中可以区分合法交易和欺诈交易的模式。

此外,正如 Offenberg 指出的那样,ML 模型是按照以下理念进行训练的:“人工或对抗性机器学习,这是一种训练其他机器学习系统的新方法,可以识别人类意想不到的潜在攻击”。

数据溯源变得至关重要

现在,假设攻击者可以访问历史信用卡交易数据并修改或注入新数据,导致算法将某些欺诈交易误认为是合法的。这种令训练数据中毒的情况可能很难检测到。与应用程序源代码中的后门(可通过代码审查和其他措施检测到)不同,ML 模型是以在人类看来难以理解(甚至有时是不可能理解)的方式来表述的。在深度学习方面尤为如此,其模型可能由许多层和大量参数组成,这些参数驱动复杂的计算阵列,以此判断交易是否合法。

通过结合安全的信任根来建立数据溯源,可以构建一个框架进行模型训练(如本例中所示)。而通过该框架,人们可以在使用数据之前检测数据有没有被篡改。“这种对 ML/AI 数据的攻击代表了我们尚未完全理解的新一代安全问题”,Offenberg 说道。

保护数据从信任根开始

通过信任根提高硬件的安全防护、保护数据的计算操作,同时保持整个数据生命周期内的数据溯源,都有助于削弱新型的 ML/AI 数据攻击。信任根是得到所连接设备无条件信任的、基础性的安全组件。它可以提供任何隐式可信功能,而系统的其余部分可以可靠地利用这些功能来确保安全性。

信任根是一种可为操作系统和系统上运行的应用程序提供安全服务(例如系统启动完整性和强加密)的安全元素。使用信任根可以提高系统的安全性,进而提升对该系统所存储和处理的数据的信任。当数据在分布式系统中移动时,可以使用受信任的组件来保护数据,并且数据溯源服务从数据生成一刻起便可开始记录数据的操作。

如今,分布式基础架构与日益复杂的数据使用相结合,进一步彰显了数据溯源的重要性。“如果我们知道数据的创建方式、创建时间、创建位置、创建人或创建工具,就能追踪这些数据,从而确保它们没有被操纵,并且知道其来源”,Offenberg 说道。“如果能基于安全数据溯源的理念来构建基础架构,我们就能更加信任正在移动和最终使用的数据。”

管理动态数据

任何数据编排策略中都必须包括建立在可信计算平台上的数据溯源。通过安全地追踪数据的创建时间、数据所有者的身份以及创建数据的设备,可以检测到数据发生的变化。这为数据的可信性奠定了基础。

开放式安全解决方案(例如 OpenTitan 项目,其正在为信任根 (RoT) 硅芯片构建参考设计和集成指南)是该计划的一部分。其他一些开源工具(例如 OpenSSL)也已被广泛使用。分布式架构存在一个缺点,那就是:如果集成没有正确完成,就可能会引入其他漏洞。同样,仅仅依赖于开源解决方案的安全性而不理解和遵循集成指南,有时也会带来一些薄弱环节。对 OpenSSL 的 Heartbleed 攻击是开源库漏洞的一个明显例证,该漏洞导致许多系统突然变得易受攻击。组织机构在集成开源项目时必须要做到谨慎、知情,尤其要注意安全性以及可能通过集成应用程序的方式而引入的潜在漏洞。

AI 和 ML 工作负载要依赖于大量不同种类的数据。除了保护数据的完整性外,ML 从业者还需要能从大型数据存储中识别和提取特定数据。这反过来又推动了对高级元数据捕获和管理的需求,包括标记或标注数据资源的能力。

最后,分布式系统不能依赖于那些保护孤立数据中心的安全措施。综合全面的安全协议(包括信任根和数据溯源)是协调数据生命周期、保护数据完整性并使其能按需访问的复杂服务阵列的一部分。

请了解有关使用 Seagate 备份和恢复解决方案在优化数据可用性的同时实施数据保护的更多信息。