Seguridad de los datos: desde la raíz de confianza hasta el seguimiento de la procedencia

Seguridad de los datos

La inteligencia artificial (IA), el aprendizaje automático (ML) y la computación en la nube están cambiando radicalmente el riesgo del modelo de la TI. Es común que los datos empresariales, que históricamente han estado ubicados y centralizados en infraestructuras que están bajo el control físico de las empresas, ahora estén almacenados en otras ubicaciones como la periferia o la nube. El modelo de amenaza cambia radicalmente gracias a las infraestructuras distribuidas y componibles. Como resultado, la arquitectura de orquestación de datos debe incluir otras medidas de seguridad, como un hardware basado en soluciones de seguridad de código libre y raíces de confianza, para proporcionar seguridad más allá de los perímetros de un centro de datos físico.

"Por ejemplo: en la periferia, el modelo de amenaza permite tener acceso físico no autorizado al equipo, e incluso es posible que nadie vea lo que sucede", dice Manuel Offenberg, investigador de seguridad de los datos de Seagate.

Proteger los datos distribuidos

Hoy en día los datos empresariales se almacenan en nubes públicas y privadas. Los datos se generan y se transmiten desde dispositivos a distancia. No hay forma de que una empresa asegure físicamente todos los dispositivos, los equipos de red y demás infraestructura distribuida que usa.

Esto le da mayor énfasis al hecho de proteger los datos que existen en una arquitectura distribuida. Por lo general, muchos de los controles de seguridad están bien adaptados para proteger la privacidad de los datos. Un cifrado sólido puede proteger los datos que están en tránsito y en reposo. Otras herramientas criptográficas, como compendios de mensajes, pueden ayudar a proteger la integridad de los datos.

Pero ahora, la creciente importancia de la IA y del aprendizaje automático implica que los requerimientos para asegurar la autenticidad de los datos también están en aumento.

Desde hace mucho tiempo existe un arsenal de herramientas para explotar las vulnerabilidades en los sistemas y el software, pero, hoy, los atacantes tienen una nueva forma de aprovecharse de nuestros sistemas: lo hacen atacando nuestros sistemas de IA y de aprendizaje automático. Al jaquear los datos que alimentan nuestros sistemas, los atacantes pueden aprovecharse de las debilidades que tenemos en nuestras tecnologías de IA y de aprendizaje automático con fines maliciosos.

Pero la IA y el aprendizaje automático también pueden ayudar en la batalla contra los jáqueres. Los algoritmos del aprendizaje automático se usan en muchos casos para detectar comportamientos maliciosos. Tomemos como ejemplo la industria de las tarjetas de crédito, en donde el aprendizaje automático se usa para analizar grandes cantidades de transacciones legales y fraudulentas. Las muestras de los datos que se usan para preparar los algoritmos pueden tener numerosas características, como los tipos de productos que se compran, la ubicación de la transacción, la cantidad que se cobró, y características específicas acerca del cliente y del vendedor. El algoritmo del aprendizaje automático identifica patrones en los datos que pueden distinguir transacciones legales de fraudulentas.

Además, tal como señala Offenberg, los modelos del aprendizaje automático se preparan al usar "aprendizaje automático artificial o contradictorio, que es una nueva forma de preparar otros sistemas de aprendizaje automático para reconocer ataques potenciales en los que nosotros como seres humanos ni siquiera podríamos pensar".

La procedencia de los datos se vuelve crucial

Ahora imagine que un atacante puede acceder a los datos históricos de las transacciones que se realizan con las tarjetas de crédito y modifica o añade nuevos datos que le permiten al algoritmo identificar algunas transacciones fraudulentas como legales. Esta clase de envenenamiento de los datos de entrenamiento puede ser difícil de detectar. A diferencia de los backdoors en la aplicaciones de código libre, los cuales pueden ser detectados por la revisión de códigos y otras medidas, los modelos del aprendizaje automático se representan en formas que son difíciles, si no imposibles, de entender por los humanos cuando las observan. Esto es especialmente cierto cuando se trata del aprendizaje profundo, en el que los modelos pueden estar compuestos por muchas capas y un gran número de parámetros los cuales impulsan una compleja matriz de cálculos que establece la decisión de si una transacción es legal o no.

Al establecer la procedencia de los datos en combinación con una raíz de confianza segura, se puede construir un marco mediante el cual la manipulación de los datos se pueda detectar antes de que los datos se usen, como en este ejemplo, para la preparación de un modelo. "Esta clase de ataques en los datos de la IA y del aprendizaje automático representará una nueva generación de preocupaciones en cuanto a la seguridad que aún no hemos comprendido del todo", dice Offenberg.

La protección de los datos comienza con la raíces de confianza

Las nuevas formas de ataques de datos del aprendizaje automático y de la inteligencia artificial pueden mitigarse al mejorar la seguridad del hardware con una raíz de confianza, al asegurar las operaciones informáticas de los datos y al mantener la procedencia de los datos a través del ciclo de la vida de los datos. Una raíz de confianza es un componente fundamental y de confianza de un dispositivo conectado. Esta puede proporcionar cualquier función de confianza implícita para que el resto del sistema pueda usarla de forma fiable y, así, garantizar la seguridad.

Las raíces de confianza son elementos seguros que proporcionan servicios de seguridad, por ejemplo, la integridad de arranque del sistema y la criptografía sólida para el sistema operativo y las aplicaciones que se ejecutan en el sistema. Al usar una raíz de confianza, se incrementa la seguridad del sistema y, de este modo, se mejora la fiabilidad de los datos almacenados y procesados para ese sistema. A medida que los datos se mueven a través de los sistemas distribuidos, los componentes de confianza se pueden usar para proteger los datos y los servicios de procedencia de los datos pueden registrar las operaciones de los datos desde el momento en que estos se generan.

Hoy la combinación de la infraestructura distribuida junto con los crecientes usos de datos complejos está destacando la importancia de la procedencia de los datos. "Si sabemos cómo, cuándo y dónde se crean los datos, y quién o qué los crea, podemos seguir su pista de modo que se garantice que estos datos no han sido manipulados y se pueda conocer su origen", dice Offenberg. "Si construimos infraestructuras basadas en el concepto de la seguridad y la procedencia, podemos lograr un alto nivel de confianza en los datos que estamos moviendo y finalmente consumiendo".

Gestionar los datos en movimiento

Cualquier estrategia de orquestación de datos debe incluir una procedencia de datos que esté construida a partir de plataformas de la computación que sean confiables. Es posible detectar cambios en los datos, mediante un seguimiento seguro del momento en el que se crearon los datos, la identidad del propietario de los datos y el dispositivo desde el que se crearon. Esto brinda las bases para tener datos con credibilidad.

Las soluciones de seguridad de código libre, como el proyecto OpenTitan, que está desarrollando un diseño de referencia junto con directrices de integración para los circuitos integrados de silicona con certificado de raíz de confianza, son parte de la solución. Otras herramientas de código libre, como OpenSSL, ya están siendo ampliamente usadas. Una desventaja de las arquitecturas distribuidas es que, cuando la integración no se realiza correctamente, se pueden presentar otras vulnerabilidades. Asimismo, el hecho de solo confiar en la seguridad de las soluciones de código libre sin comprender y seguir las directrices de integración puede producir debilidad. El ataque Heartbleed de OpenSSL es un claro ejemplo de vulnerabilidad de una librería de código libre que provocó que de manera repentina muchos sistemas se volvieran vulnerables. Las organizaciones deben ser prudentes y estar informadas cuando integren proyectos de código libre y, además, poner especial atención a la seguridad y las vulnerabilidades potenciales que se puedan presentar debido a la forma en que se integran las aplicaciones.

Las cargas de trabajo de la IA y del aprendizaje automático dependen de grandes volúmenes de datos de diversos datos. Además, para proteger la integridad de los datos, los profesionales del aprendizaje automático necesitan poder identificar y extraer datos específicos de grandes almacenes de datos. Esto, a su vez, impulsa la necesidad de capturar y gestionar metadatos avanzados, incluida la habilidad para etiquetar o rotular los recursos de datos.

En definitiva, los sistemas distribuidos no pueden confiar en las mismas medidas de seguridad en las que confían los centros de datos de silos protegidos. Los protocolos de seguridad integral, en los que se incluyen las raíces de confianza y la procedencia de los datos, forman parte de matrices complejas de servicios que orquestan los ciclos de vida de los datos, protegen la integridad de los datos y hacen que sean accesibles a toda hora.

Conozca más acerca de la protección de datos mientras que optimiza su utilidad con las soluciones de copias de seguridad y recuperación de Seagate.