Proteção de dados: da raiz de confiança ao controle da proveniência
A inteligência artificial (IA), machine learning (ML) e computação em nuvem estão fundamentalmente mudando o modelo de risco da TI. Os dados corporativos, que têm sido historicamente localizados em uma infraestrutura centralizada sob o controle físico da empresa, agora são frequentemente armazenados em outros locais, como a borda ou a nuvem. Basicamente, o modelo de ameaça muda com infraestruturas distribuídas e modulares. Como resultado, a arquitetura de orquestração de dados deve incluir outras medidas de segurança, como raízes de confiança baseadas em hardware e soluções abertas de segurança, para fornecer segurança além dos perímetros de um data center físico.
"Por exemplo, na borda, o modelo de ameaça inclui acesso físico não autorizado ao equipamento — possivelmente sem que ninguém veja acontecer", disse Manuel Offenberg, pesquisador de segurança de dados na Seagate.
Hoje, os dados corporativos estão armazenados em nuvens públicas e híbridas. Os dados são gerados em (e transmitidos de) dispositivos remotos. Não há uma forma de uma só empresa proteger fisicamente todos os dispositivos, equipamentos de rede e outras infraestruturas distribuídas que usa.
Isso coloca ainda mais ênfase em proteger os dados que existem em uma arquitetura distribuída. Muitos dos controles de segurança que costumam ser usados são apropriados para proteger a confidencialidade dos dados. A criptografia forte pode proteger dados em trânsito e em repouso. Outras ferramentas criptográficas, como resumos de mensagens, podem ajudar a proteger a integridade dos dados.
No entanto, atualmente, a crescente importância da IA e ML significa demandas para garantir que a autenticidade dos dados também esteja em crescimento.
Há muito tempo existe um arsenal expansivo de ferramentas para explorar vulnerabilidades em sistemas e software, mas, hoje, os invasores têm uma nova maneira de explorar nossos sistemas: atacando os sistemas de ML/IA. Ao hackear os dados que alimentam esses sistemas, os invasores podem tirar vantagem de pontos fracos nas tecnologias de ML/IA para fins maliciosos.
Entretanto, o ML/IA também pode ajudar na batalha contra hackers. Algoritmos de ML são usados em muitos casos para detectar comportamento malicioso. O setor de cartão de crédito, por exemplo, em que ML é usado para analisar números grandes de transações legítimas e fraudulentas. As amostras de dados usadas para treinar os algoritmos podem consistir em vários atributos, como o tipo de produto comprado, o local da transação, o valor cobrado, e atributos específicos sobre o cliente e o vendedor. O algoritmo de ML identifica padrões nos dados que podem distinguir transações legítimas de fraudulentas.
Além disso, como Offenberg aponta, os modelos de ML são treinados usando "machine learning artificial ou adversarial, uma nova maneira de treinar outros sistemas de machine learning para reconhecer possíveis ataques que jamais ocorreriam a nós, humanos".
Agora, imagine que um invasor obtém acesso a dados históricos de transações de cartão de crédito e modifica ou insere novos dados que levam o algoritmo a identificar erroneamente algumas das transações fraudulentas como legítimas. Esse tipo de envenenamento dos dados de treinamento pode ser difícil de detectar. Diferentemente de backdoors no código-fonte de um aplicativo, que podem ser detectados por revisões do código e outras medidas, os modelos de ML são representados de formas que são difíceis, se não impossíveis, para os humanos entenderem ao vê-los. Isso acontece principalmente com relação ao aprendizado profundo, em que os modelos podem consistir em muitas camadas e números altos de parâmetros que geram uma variedade complexa de cálculos que produzem a decisão sobre se a transação é ou não legítima.
Ao estabelecer a proveniência dos dados em combinação com uma raiz segura de confiança, é possível construir uma estrutura de trabalho que pode ser usada para detectar a adulteração de dados antes de eles serem usados, como neste exemplo, para treinar um modelo. "Esses tipos de ataques nos dados de ML/IA representarão uma nova geração de preocupações com segurança que ainda não entendemos completamente", disse Offenberg.
A nova classe de ataques de dados de ML/IA pode ser mitigada ao aprimorar a segurança do hardware com uma raiz de confiança, protegendo as operações computacionais em dados e mantendo a proveniência dos dados durante todo o seu ciclo de vida. Uma raiz de confiança é qualquer componente de confiança incondicional e segurança fundamental de um dispositivo conectado. Ela pode fornecer qualquer função de confiança implícita que o resto do sistema possa utilizar de forma confiável para garantir a segurança.
As raízes de confiança são elementos protegidos que fornecem serviços de segurança, como integridade de inicialização de sistema e criptografia forte, para o sistema operacional e os aplicativos em execução no sistema. Usar uma raiz de confiança aumenta a segurança do sistema, o que eleva a confiança dos dados armazenados e processados nesse sistema. À medida que os dados se movem pelos sistemas distribuídos, componentes confiáveis podem ser usados para proteger dados, e serviços de proveniência de dados podem registrar operações nos dados desde o momento em que eles foram gerados.
Atualmente, a combinação de infraestrutura distribuída com usos de dados cada vez mais complexos está definindo a importância da proveniência dos dados. "Se soubermos como, quando e onde os dados são criados, e por quem e o que, agora podemos controlar esses dados de uma forma que garante que: ‘esses dados não foram manipulados e nós sabemos sua origem’", afirmou Offenberg. "Se construirmos infraestruturas baseadas nesse conceito de proveniência de dados protegidos, alcançaremos um nível mais alto de confiança nos dados que estamos movendo e eventualmente consumindo.”
Qualquer estratégia de orquestração de dados deve incluir a proveniência de dados construída sobre plataformas computacionais confiáveis. Ao monitorar com segurança a hora em que os dados foram criados, a identidade do proprietário e o dispositivo no qual eles foram criados, é possível detectar alterações nos dados. Isso cria a base para a confiabilidade dos dados.
Soluções de segurança abertas, como o projeto OpenTitan, que está estabelecendo um design de referência com diretrizes de integração para chips RoT (root of trust, raiz de confiança), fazem parte da solução. Outras ferramentas de código aberto, como OpenSSL, já são amplamente usadas. Uma desvantagem das arquiteturas distribuídas é que, quando a integração não é realizada adequadamente, outras vulnerabilidades podem ser introduzidas. Da mesma forma, simplesmente confiar na segurança das soluções de código aberto sem entender e seguir as diretrizes de integração pode introduzir falhas. O ataque Heartbleed no OpenSSL é um exemplo claro de uma vulnerabilidade em uma biblioteca de código aberto que fez com que muitos sistemas ficassem vulneráveis repentinamente. As organizações devem ser cautelosas e estar bem informadas ao integrar projetos de código aberto, prestando atenção especial na segurança e em possíveis vulnerabilidades que podem ser introduzidas pela forma na qual os aplicativos são integrados.
As cargas de trabalho de IA e ML dependem de grandes volumes de dados diversos. Além de proteger a integridade dos dados, os profissionais de ML precisam saber identificar e extrair dados específicos de grandes armazenamentos de dados. Isso, por sua vez, cria a necessidade por captura e gerenciamento avançado de metadados, incluindo a capacidade de marcar com tags ou etiquetar recursos de dados.
Em última análise, os sistemas distribuídos não podem depender das mesmas medidas de segurança que protegiam data centers isolados. Protocolos de segurança abrangentes, incluindo a raiz de confiança e proveniência de dados, fazem parte das gamas complexas de serviços que orquestram os ciclos de vida dos dados, protegem a integridade dos dados e os torna acessíveis sob demanda.
Saiba mais sobre como proteger dados ao mesmo tempo em que otimiza sua utilidade com soluções de backup e recuperação da Seagate.