人工知能 (AI)、機械学習 (ML)、およびクラウドコンピューティングによって、ITのリスクモデルは今、根本的に変化しています。企業データはこれまで、企業の物理的管理下にある集約型のインフラストラクチャに保存されていましたが、最近はエッジやクラウドなど、それ以外の場所に保存されることも多くなっています。分散型インフラストラクチャやコンポーザブル・インフラストラクチャによって、脅威モデルが今、根本的に変化しています。そのため、データ・オーケストレーションには、ハードウェアベースの信頼の基点やオープン・セキュリティ・ソリューションなど、その他のセキュリティ対策を組み込んで、物理データセンターの外にもセキュリティを配備する必要があります。
「例えばエッジの脅威モデルには、機器への不正な物理アクセスがあります。これは、誰にも気づかれずに実行される可能性すらあります」と、Seagateのデータセキュリティ研究者のマヌエル・オッフェンベルクは話します。
現在、企業データはパブリッククラウドやハイブリッドクラウドに保存されています。一方、データの生成や転送は離れた場所にあるデバイスから行われます。使用しているデバイス、ネットワーク機器、その他の分散型インフラストラクチャをすべて自社で物理的に保護することは不可能です。
分散型アーキテクチャに存在するデータを保護することがますます重要になっています。一般的に使用されているセキュリティ対策の多くは、データの機密性保護に適したものです。これは強力な暗号化によって、転送中や保存中のデータを保護します。メッセージダイジェストなどのその他の暗号化ツールは、データ整合性の保護に役立ちます。
しかし現在、AIやMLの重要性の高まり受け、データの信頼性確保に対するニーズも高まっています。
これまでにもシステムやソフトウェアの脆弱性につけこむツールが多数登場してきましたが、攻撃者は今、まったく新しいやり方でシステムを不正に利用しようとしています。それが、ML/AIシステムを攻撃するという方法です。こうしたシステムに読み込まれるデータをハッキングすることで、攻撃者はML/AI技術の弱点を利用して悪用します。
しかしML/AIはまた、ハッカーとの戦いにも役立つものです。MLアルゴリズムは、不正検知に広く使用されています。クレジットカード業界を例に見てみましょう。この業界では、MLを使って正当な取引と不正な取引の分析を行っています。こうしたアルゴリズムのトレーニングに使用されるデータサンプルは、例えば購入製品の種類、取引の場所、請求額、顧客や販売店に関する具体的な情報など、さまざまな項目で構成されています。MLアルゴリズムは、データ内のパターンを特定することで、正当な取引と不正な取引を見分けます。
さらに、MLモデルは「人工機械学習または敵対的機械学習」を使ってトレーニングされるとオッフェンベルクは指摘します。これは、その他の機械学習システムをトレーニングするためのまったく新しい方法で、人間には思いも浮かばないような潜在的な攻撃を見極めることができます。」
例えば、攻撃者がクレジットカード取引の履歴データにアクセスし、データを変更したり新しいデータを投入したりすることで、アルゴリズムが不正な取引を正当な取引と誤って判断するよう操作したとします。このようなトレーニングデータの不正操作は、検出が難しくなります。コードの確認やその他の対策で検出できるアプリケーションソースコードの不正使用とは違い、MLモデルの不正は、人間の目では分かりにくい形で行われます。ディープラーニングの場合は特にこの特徴が顕著になります。これは、モデルが多数の層やパラメーターで構成されており、取引が正当なものであるかどうかを判断するために複雑な計算が行われるためです。
確実な信頼の基点を組み合わせてデータ起源を確立することで、この例のようにモデルのトレーニングにデータが使用される前にデータの改ざんを検出できるフレームワークを構築することが可能になります。「こうしたML/AIデータへの攻撃は、私たちがまだ完全には理解できていない新世代のセキュリティ懸念を表しています」と、オッフェンベルクは言います。
信頼の基点によるハードウェアセキュリティの強化、データへのコンピューティング操作の強化、データのライフサイクル全体を通じたデータ起源の維持によって、こうした新しいクラスのML/AIデータ攻撃を緩和することができます。信頼の基点とは、コネクテッド・デバイスの無条件に信頼される基礎的なセキュリティ・コンポーネントです。これにより、残りのシステムがセキュリティ確保のために信頼して使用できる黙示的に信頼された機能を提供することができます。
信頼の基点は、システム起動の整合性、システム上で実行されるオペレーティング・システムやアプリケーションに対する強力な暗号化などのセキュリティサービスを提供する安全な要素です。信頼の基点を使用することでシステムのセキュリティを強化し、さらにはそのシステムが保存・処理するデータの信頼性を高めることができます。データが分散されたシステムの間を行き交う中、信頼されたコンポーネントを使ってデータを保護し、データ起源サービスによって生成時からデータに対する操作を記録することができます。
現在、分散型インフラストラクチャとますます複雑化するデータの使用法との組み合わせにより、データ起源の重要性が強調されています。「データがいつ、どこで、どのように、さらには誰によって、あるいは何によって生成されたのかが分かっていれば、『このデータは操作されておらず、起源も分かっている』と確信しながらデータを管理することが可能になります」と、オッフェンベルクは話します。「安全なデータ起源のコンセプトに基づいてインフラストラクチャを構築すれば、各デバイス間を移動させ、最終的に使用するデータの信頼性をレベルアップさせることができます。」
データ・オーケストレーション戦略には必ず、信頼されたコンポーネント・プラットフォームを基礎とするデータ起源を含める必要があります。データが生成された日時、データの所有者、データを生成したデバイスをしっかりと管理することで、データの変更を検知することが可能になります。これにより、データの信頼性の基礎を築くことができます。
レファレンス設計やシリコンレベルの信頼性 (RoT) チップの統合の指針を構築するオープン・セキュリティ・ソリューション(OpenTitanプロジェクトなど)もこうしたソリューションの一部です。OpenSSLなどのその他のオープン・ソース・ツールはすでに広く使用されています。分散型アーキテクチャの弱点のひとつに、統合を適切に行わないと、他の脆弱性が生まれるという点があります。統合の指針を理解せずにオープン・ソース・ソリューションのセキュリティに頼ってしまうと同じように弱点が生まれます。OpenSSLのHeartbleed攻撃は、オープン・ソース・ライブラリに脆弱性が生まれ、その結果多くのシステムが突然危険にさらされる分かりやすい例です。企業は、特にセキュリティやアプリケーションを統合することで生まれる可能性のある脆弱性に注意を払いながら、十分な情報に基づいて慎重にオープン・ソース・プロジェクトの統合を行う必要があります。
AIやMLのワークロードには、多様なデータが大量に必要となります。データの整合性保護に加えて、ML利用者は大容量データストアから特定のデータを見つけ出し、取り出せるようにしておく必要があります。そのため、データリソースのタグ付けやラベル付け機能など、メタデータをキャプチャ・管理するための高度な方法が必要となります。
つまるところ、サイロ化されたデータセンターに使用していたセキュリティ対策では、分散型システムには太刀打ちできないということです。信頼の基点やデータ起源といった包括的なセキュリティプロトコルは、データのライフサイクルを統合し、データの整合性を保護し、必要な時にアクセスできる状態にする複雑なサービスの一部です。
Seagateのバックアップおよびセキュリティ・ソリューションでユーティリティを最適化しながらデータを保護する方法について、詳しくご覧ください。