Tom Prohofsky

Perspective

03 abr, 2025

IA

O armazenamento de dados é o oxigênio do machine learning e da IA

Tom Prohofsky

Perspective

data-storage-is-the-oxygen-images-hero-1440x1080

A inteligência artificial (IA) e machine learning (ML) geraram avanços transformadores, desde prever estruturas de proteína a possibilitar a tradução de idiomas em tempo real. No centro dessas inovações está uma necessidade insaciável por dados de alta qualidade. Os modelos de IA funcionam bem com conjuntos de dados vastos, mas sem um armazenamento de dados confiável e econômico, esses modelos, e os insights que eles geram, não alcançariam todo o seu potencial.

Assim como o oxigênio abastece a mente humana, o armazenamento de dados abastece o desenvolvimento da IA. A capacidade de armazenar, acessar e processar dados com eficiência determina a eficácia com a qual os modelos de IA são treinados e refinados. No entanto, à medida que a demanda por soluções impulsionadas por IA cresce, o mesmo acontece com o desafio de gerenciar o ciclo de vida dos dados de IA (da coleta ao armazenamento e ao processamento), tudo isso mantendo os custos e a complexidade sob controle.

A crescente demanda por dados prontos para IA

A ciência de dados evoluiu de planilhas e análise simples para poderosos insights gerados por ML. Hoje, o Departamento do Trabalho dos EUA informa que existem mais de 200.000 empregos em ciência de dados, com um crescimento projetado de 36% para a próxima década. Especialistas em domínio de todos os setores estão incorporando ferramentas de IA em seus fluxos de trabalho, mesmo sem treinamento formal em ciência de dados, usando plataformas sem código que permitem criar modelos e analisar dados mais rápido do que nunca.

Mas os dados brutos não são úteis por si só. Antes que possam ser alimentados em modelos de IA, eles devem ser estruturados, limpos e rotulados — um processo geralmente chamado de preparação de dados. Ferramentas de código aberto, como o Pandas, ajudam a transformar conjuntos de dados massivos em formatos estruturados que modelos de IA podem usar. Entretanto, esse processo requer armazenamento de dados rápido, eficiente e local para evitar gargalos que deixam o desenvolvimento de modelo lento.

O desafio do gerenciamento de dados de IA

O grande volume de dados de treinamento de IA apresenta desafios de logística significativos. Armazenar e gerenciar grandes conjuntos de dados não diz respeito apenas à capacidade, mas também ao custo, conformidade e acessibilidade.

Alguns dos maiores desafios no gerenciamento de dados de IA incluem:

  • Soberania e segurança de dados. As organizações devem cumprir os regulamentos que regem a propriedade intelectual, privacidade e controle jurisdicional.
  • Custos do armazenamento em nuvem. Os conjuntos de dados de IA armazenados na nuvem podem ser cinco a 10 vezes mais caro do que usar soluções NAS no local.
  • Gargalos na movimentação de dados. A transferência de grandes conjuntos de dados entre WANs é lenta e onerosa, criando atrasos para equipes geograficamente dispersas.

As abordagens tradicionais de armazenamento centralizado são desafiadas pelas fontes de dados geograficamente dispersas. Um número crescente de profissionais de IA está recorrendo a soluções de armazenamento localizadas em borda que oferecem maior controle, custos mais baixos e latência reduzida.

Levando o armazenamento de dados de IA para a borda

Em vez de transferir conjuntos de dados vastos para servidores em nuvem centralizados, as organizações podem processar e armazenar dados de IA mais perto de onde eles são gerados. Essa abordagem (geralmente chamada de computação de borda) minimiza os custos do movimento de dados e aprimora o desempenho.
Uma solução econômica são sistemas NAS híbridos pequenos que fornecem armazenamento local de alto desempenho para cargas de trabalho de IA. Diferentemente do NAS tradicional, esses sistemas integram ferramentas de IA conteinerizadas, como notebooks Jupyter, permitindo que especialistas na área e desenvolvedores de IA colaborem diretamente no próprio sistema de armazenamento. Ao eliminar a necessidade de transferências de dados constantes, essas soluções NAS reduzem os custos operacionais ao mesmo tempo em que aceleram o desenvolvimento da IA.
O processamento de dados de IA na borda também dá às organizações maior controle sobre seus conjuntos de dados. Manter a soberania sobre os dados de treinamento de IA garante a conformidade com as normas do setor e reduz os riscos associados ao armazenamento de terceiros. Essa abordagem torna os fluxos de trabalho de IA mais eficientes, mantendo os dados perto de onde são coletados e analisados.

A computação de borda oferece várias vantagens para o desenvolvimento de IA:

  • Diminuição dos custos. Reduz as despesas de transferência de dados e armazenamento em nuvem.
  • Desenvolvimento de IA mais rápido. Mantém os dados de treinamento no local para acesso rápido.
  • Melhor controle de dados. Mantém a soberania e a compliance garantindo que os dados sejam armazenados e processados internamente.

Laboratório de borda de IA: Arquitetura e configuração do sistema

Para explorar a viabilidade de executar cargas de trabalho de IA em armazenamento localizado, criamos um cluster NAS de três nós e medimos seu desempenho de armazenamento.

Configuração do sistema:

  • Hardware:
  • Processador Intel N5095 (baixo consumo de energia)
  • Portas ethernet 2.5GE duplas
  • 4 discos rígidos IronWolf® Pro de 24 TB (RAID5, 70 TB utilizáveis por nó)
  • SSDs e unidades de processamento de tensor (TPUs) opcionais para proporcionar aceleração
  • Software:
  • Contêineres Jupyter Notebook para desenvolvimento de IA baseado em Python
  • NATS Jetstream para fornecer mensagens com tolerância a falhas, armazenamento de chave-valor e armazenamento de objetos
  • Replicação de dados de vários nós para proporcionar redundância e resiliência
data-storage-is-the-oxygen-images-figure-1-1440x900

Teste de desempenho: Avaliando armazenamento e rede

Primeiro, medimos o desempenho de um único nó para estabelecer uma linha de base para o throughput. O sistema alcançou 200 MB/s por link 2.5GE para grandes transferências de dados.

data-storage-is-the-oxygen-images-figure-2-1440x900

Depois, analisamos como a replicação de vários nós afetou o desempenho. Embora a replicação de dados tenha aumentado o tráfego de rede, teve impacto mínimo sobre o desempenho de leitura— uma vantagem importante para as cargas de trabalho que exigem consistência de dados entre vários nós.

data-storage-is-the-oxygen-images-figure-3-1440x900

Testes de desempenho de rede revelaram que a adição de um segundo link 2.5GE fornece apenas pequenos benefícios de gravação, enquanto a rede 10GE melhorou o desempenho em casos selecionados.

data-storage-is-the-oxygen-images-figure-4-1440x900

Treinamento de IA real na borda

Para simular um fluxo de trabalho de IA, testamos uma tarefa de machine learning real usando o sistema NAS. Treinamos um modelo de classificação de barcos usando um conjunto de dados de 500 imagens rotuladas, executando extração de recursos e treinamento de modelo localmente.

Depois de armazenar as imagens em um bucket de armazenamento de objetos com rótulos de metadados, usamos PyTorch Img2Vec para extrair recursos de cada imagem e treinamos um classificador de floresta aleatório. O modelo resultante atingiu 78% de precisão em menos de um minuto.

data-storage-is-the-oxygen-images-figure-5-1440x900

As principais observações desse teste incluíram:

  • A extração de característica levou mais tempo (81%). a necessidade de um armazenamento local rápido.
  • O treinamento do modelo de IA foi concluído em menos de um minuto, comprovando a eficiência do NAS local para fluxos de trabalho de IA.
  • Especialistas nos domínios sem treinamento formal em IA conseguiram executar o experimento com sucesso, demonstrando a acessibilidade dessa abordagem.

Esse experimento demonstrou que o armazenamento NAS localizado pode servir como um hub de dados de IA econômico, reduzindo a dependência de serviços de nuvem e aprimorando a acessibilidade e o desempenho.

Considerações finais: O armazenamento de IA deve evoluir

O futuro da IA depende de um armazenamento de dados eficiente, econômico e escalável. Conforme os volumes de dados continuam a crescer, as organizações devem repensar como armazenam e gerenciam conjuntos de dados de IA.

As soluções NAS localizadas fornecem uma alternativa prática ao armazenamento em nuvem caro, permitindo às equipes de IA:

  • Reduzir custos sem deixar o acesso de alto desempenho aos dados.
  • Aprimorar a eficiência do fluxo de trabalho de IA mantendo os dados próximos da computação.
  • Elevar a compliance e a soberana ao controlar onde os dados de IA residem.

Assim como o oxigênio sustenta a vida, o armazenamento de dados sustenta a inovação da IA. Ao tornar o armazenamento pronto para IA mais acessível, econômico e de alto desempenho, as organizações podem acelerar suas inovações geradas pela IA.

Tópicos relacionados:

Innovation Data Center