Open

Sécuriser les données : des racines de confiance au traçage de l'origine

Sécuriser les données

L'intelligence artificielle (IA), l'apprentissage automatique (machine learning, ML) et le cloud computing modifient en profondeur le modèle de risque des réseaux informatiques. Les données d'entreprise, qui étaient traditionnellement centralisées dans des infrastructures contrôlées physiquement par les entreprises, sont aujourd'hui stockées dans d'autres endroits, notamment en périphérie ou dans le cloud. Les infrastructures distribuées et composables bouleversent le modèle de menace. L'architecture d'orchestration des données doit désormais inclure d'autres mesures de sécurité, telles que les racines de confiance matérielles et les solutions de sécurité ouvertes, afin de protéger les données au-delà du centre de données physique.

Manuel Offenberg, chercheur en sécurité des données chez Seagate, explique : « Par exemple, en périphérie, le modèle de menace inclut un accès physique non autorisé à l'équipement, avec la possibilité que personne ne s'en rende compte. »

Protection des données distribuées

Aujourd'hui, les données d'entreprise sont stockées dans des clouds hybrides et publics. Les données sont générées (et transmises) par des appareils distants. Aucune entreprise ne peut, à elle seule, sécuriser physiquement l'ensemble des appareils, équipements réseau et autres composants de l'infrastructure distribuée qu'elle utilise.

D'où l'importance de protéger les données qui existent dans une architecture distribuée. De nombreux contrôles de sécurité utilisés couramment permettent de protéger la confidentialité des données. Un chiffrement puissant protège les données au repos et en transit. D'autres outils de chiffrement, comme les condensés de message, protègent l'intégrité des données.

Toutefois, l'importance croissante de l'IA et du ML renforce le besoin de vérifier l'authenticité des données.

Les pirates informatiques n'ont jamais manqué de ressources pour tirer profit des failles des systèmes et des logiciels, mais aujourd'hui, ils disposent d'un nouveau point d'entrée : nos systèmes de ML/IA. En piratant les données qui alimentent ces systèmes, ils peuvent exploiter les points faibles des technologies de ML/IA à des fins malveillantes.

À l'inverse, les systèmes de ML/IA peuvent être un atout dans la lutte contre les piratages. Les algorithmes ML sont souvent utilisés pour détecter des comportements malveillants. C'est notamment le cas dans le secteur bancaire, où les systèmes ML analysent un grand nombre de transactions légitimes et frauduleuses. Les exemples de données utilisés pour entraîner les algorithmes peuvent posséder divers attributs, comme le type de produit acheté, le lieu de la transaction, le montant débité et certains attributs spécifiques relatifs au client ou à la boutique. L'algorithme ML identifie des schémas dans les données afin de distinguer les transactions légitimes des transactions frauduleuses.

De plus, M. Offenberg précise que les modèles ML sont soumis à « un apprentissage automatique artificiel ou antagoniste, qui consiste à entraîner d'autres systèmes ML à reconnaître de potentielles attaques qu'un être humain n'aurait pas les capacités d'élaborer ».

Le traçage de l'origine des données est incontournable

Imaginez qu'un pirate accède à l'historique des données de transactions bancaires et les modifie, ou y intègre de nouvelles données afin que l'algorithme considère certaines transactions frauduleuses comme des transactions légitimes. Cette altération des données d'entraînement peut être difficile à détecter. Contrairement aux portes dérobées dans le code source des applications, qui peuvent être détectées en vérifiant régulièrement le code et en appliquant d'autres mesures simples, les modèles ML sont représentés sous une forme difficile (voire impossible) à appréhender pour une personne lambda. Ceci est d'autant plus vrai dans le deep learning, où les modèles contiennent énormément de couches et de paramètres pour réaliser une multitude de calculs complexes afin de déterminer si oui ou non une transaction est légitime.

En retraçant l'origine des données et en identifiant une racine de confiance sécurisée, il est possible de créer un cadre dans lequel toute altération des données serait détectée avant qu'elles ne soient utilisées, comme dans notre exemple, pour entraîner un modèle. M. Offenberg poursuit : « Ce genre d'attaque ciblant des données ML/IA nous pousse à envisager de nouveaux problèmes de sécurité que nous ne comprenons pas encore tout à fait bien. »

Les racines de confiance au cœur de la protection des données

Cette nouvelle catégorie d'attaques visant des données ML/IA peut être contrée en prenant les mesures suivantes : améliorer la sécurité du matériel en identifiant une racine de confiance, sécuriser les opérations de calcul réalisées avec les données et retracer l'origine des données à toutes les étapes du cycle de vie des données. Une racine de confiance est un composant essentiel de sécurité d'un appareil connecté auquel vous accordez une confiance absolue. Ce composant offre une garantie implicite sur laquelle le reste du système peut compter pour assurer la sécurité.

Les racines de confiance sont des éléments sécurisés qui offrent des services de sécurité tels que l'intégrité du démarrage du système et un chiffrement puissant pour le système d'exploitation et les applications exécutées sur le système. Les racines de confiance renforcent la sécurité du système, et par la même occasion, la fiabilité des données stockées et traitées par ce système. Tout au long du voyage des données dans les systèmes distribués, les composants de confiance peuvent être utilisés pour protéger les données, tandis que les services de traçage de l'origine peuvent enregistrer les opérations réalisées sur les données depuis leur création.

L'augmentation du nombre d'infrastructures distribuées et de la complexité des traitements des données souligne l'importance de l'origine des données. Selon M. Offenberg, « Si nous savons comment, quand et où les données ont été créées, ainsi que par qui ou par quoi, nous pouvons tracer l'origine des données, garantir qu'elles n'ont pas été manipulées et affirmer que nous en connaissons la source. Si nous créons des infrastructures dans lesquelles l'origine des données est sécurisée, nous augmentons la fiabilité des données qui circulent et que nous pouvons être amenés à consommer. »

Gestion des données en mouvement

Toute stratégie d'orchestration des données doit comprendre un traçage de l'origine des données qui repose sur des plates-formes de calcul de confiance. En enregistrant l'heure de création des données, l'identité de leur propriétaire et l'appareil utilisé pour les créer, il est possible de détecter les modifications apportées aux données. Nous disposons ainsi d'une base pour garantir la fiabilité des données.

Les solutions de sécurité ouvertes jouent ici un rôle important, comme le projet OpenTitan, dont le but est de créer une conception de référence et des directives d'intégration pour les puces des racines de confiance en silicium. D'autres outils open source, tels qu'OpenSSL, sont déjà largement répandus. L'intégration des architectures distribuées est une étape à ne surtout pas négliger, car elle peut être à l'origine d'autres vulnérabilités si elle n'est pas réalisée correctement. De même, il est essentiel de comprendre et de suivre les directives d'intégration des solutions de sécurité open source pour éviter d'introduire des faiblesses dans le système. La faille Heartbleed, qui a touché la bibliothèque open source OpenSSL et fragilisé de nombreux systèmes, en est un parfait exemple. Les organisations doivent faire preuve de prudence et étudier sérieusement l'intégration des projets open source, en particulier la sécurité et les potentielles failles des diverses méthodes d'intégration.

Les charges de travail ML/IA reposent sur d'énormes volumes de données diverses. En plus de protéger l'intégrité des données, les professionnels en ML doivent identifier et extraire des données spécifiques de grands magasins de données. C'est pourquoi ils ont besoin de fonctions avancées de capture et de gestion des métadonnées, notamment pour étiqueter les ressources des données.

En conclusion, la protection des systèmes distribués ne peut pas reposer sur les mêmes mesures que les centres de données en silo. Les organisations doivent adopter des protocoles de sécurité complets, qui intègrent des racines de confiance et un traçage de l'origine des données, parmi divers services permettant d'orchestrer les cycles de vie des données, de protéger l'intégrité des données et d'accéder aux données à la demande.

Découvrez comment protéger vos données tout en optimisant leur utilisation avec les solutions de sauvegarde et récupération de Seagate.