27 jan, 2025

IA

Preparando a infraestrutura de dados corporativos para IA em escala

Preparando a infraestrutura de dados corporativos para IA em escala

As cargas de trabalho de IA geram volumes massivos de dados estruturados e não estruturados. Para suportar os ciclos de treinamento, inferência e retreinamento, as empresas precisam de armazenamento escalável e de alta capacidade que possa lidar com o crescimento contínuo de dados.

Não há sucesso em IA sem dados — e muitos dados.

E não existem conjuntos de dados massivos sem um armazenamento de dados amplo e eficiente. As cargas de trabalho de IA criam fluxos contínuos de dados — desde conjuntos de dados de treinamento e registros de inferência até metadados, incorporações e saídas de modelos. Com a expansão da IA ​​generativa e dos grandes modelos de linguagem (LLMs), o volume e a variedade de dados empresariais crescem exponencialmente. Essa rápida expansão exige arquiteturas de armazenamento capazes de lidar com ingestão constante, acesso em alta velocidade e preservação confiável ao longo do tempo.

Os dados sustentam a IA e os discos rígidos de grande capacidade sustentam os dados.

Essas informações são evidenciadas por uma pesquisa de 2025 da empresa de pesquisa Recon Analytics.

A pesquisa global fornece detalhes sobre como empresas de diversos setores estão adaptando sua infraestrutura para dar suporte à IA. Os participantes representam organizações que já utilizam ou planejam utilizar IA, oferecendo insights sobre as demandas de armazenamento, os desafios de escalabilidade e o futuro da infraestrutura de dados corporativa.

A pesquisa global comissionada pela Seagate entrevistou 1.062 participantes. São compradores e tomadores de decisão de armazenamento de TI que trabalham em funções de infraestrutura de armazenamento para empresas que reportam mais de US$ 10 milhões em receita anual, têm mais de 50 terabytes (TB) de uso de armazenamento atual, adotaram IA ou planejam adotá-la nos próximos três anos e estão localizadas nos Estados Unidos, China, Reino Unido, Coreia do Sul, Singapura, França, Índia, Japão, Taiwan e Alemanha.

A pesquisa focou nos efeitos da adoção da IA ​​nas prioridades de infraestrutura, retenção de dados e gerenciamento de dados. Os resultados lançam luz sobre como a IA afetará as necessidades de infraestrutura nos próximos três anos.

Análises de pesquisas globais: Como a adoção da IA ​​transformará a infraestrutura de dados

A mais recente pesquisa da Recon Analytics revela uma mudança crucial na forma como as empresas estão planejando seus ecossistemas de dados para a era da IA. Em vez de tratar a IA como uma iniciativa isolada, as organizações estão agora reavaliando as estratégias de armazenamento, a alocação de recursos e o projeto de infraestrutura a longo prazo em resposta à crescente adoção da IA. A pesquisa revela como os líderes globais de TI estão se preparando para um futuro em que o crescimento de dados, os requisitos de retenção e as expectativas de desempenho aumentarão mais rapidamente do que nunca.

Crescimento do tráfego de dados de IA até 2028: Por que a demanda por armazenamento de IA está aumentando?

Em primeiro lugar, a pesquisa demonstrou que a adoção da IA ​​está impulsionando um crescimento exponencial na demanda por armazenamento de dados até 2028.

Até 61% dos entrevistados de empresas que usam predominantemente armazenamento em nuvem disseram que o armazenamento baseado em nuvem de suas empresas teria que aumentar em mais de 100% — ou seja, teria que dobrar — nos próximos três anos.

O gráfico de barras mostra o quanto as empresas esperam que suas necessidades de armazenamento de dados mudem nos próximos três anos, desde uma diminuição/nenhuma mudança até 100%.

Figura 1. 61% dos entrevistados cujas empresas utilizam principalmente armazenamento em nuvem para o gerenciamento de dados de IA esperam aumentar suas necessidades de armazenamento em 100% ou mais.

Por que a retenção de dados a longo prazo melhora a precisão e a confiabilidade da IA

À medida que as aplicações de IA impulsionam a criação de dados sem precedentes, quanto mais dados as organizações armazenam, mais podem validar se a IA está funcionando conforme o esperado. Com acesso a dados comportamentais — como conjuntos de dados de treinamento, pontos de verificação do modelo, instruções e respostas — as empresas podem analisar algoritmos minuciosamente e compreender e refinar melhor a tomada de decisões por IA. Sem a escala e a eficiência dos data centers, o potencial da IA seria limitado, visto que a capacidade de armazenar e recuperar conjuntos de dados massivos é fundamental para o sucesso da IA.

Não é apenas a quantidade de armazenamento que impulsiona o sucesso da IA. A duração do armazenamento de dados também é importante.

Setores como o financeiro, o da saúde, o industrial e as operações governamentais dependem da retenção de clientes a longo prazo para atender aos requisitos de conformidade e às necessidades de auditoria. A preservação de dados históricos fortalece as estruturas de governança, apoia a elaboração de relatórios regulatórios e torna os resultados da IA ​​mais precisos ao longo do tempo.

Dos entrevistados empregados por empresas que adotaram a tecnologia de IA, 90% acreditam que uma retenção de dados mais longa melhora a qualidade dos resultados da IA.

O infográfico apresenta uma análise detalhada das pessoas que acreditam que períodos mais longos de retenção de dados melhoram os resultados da IA, com 90% das empresas que utilizam IA respondendo afirmativamente.

Figura 2. 90% das empresas que utilizam IA atualmente acreditam que reter mais dados históricos melhora a precisão do modelo.

Essa descoberta aponta para uma correlação entre preservar dados por períodos mais longos e insights de IA mais confiáveis. Isso pode dever-se a vários fatores. Primeiro, o processamento iterativo constante é intrínseco à forma como os algoritmos de IA funcionam. As saídas de conteúdo retroalimentam o modelo, aprimorando sua precisão e possibilitando novos modelos. Conjuntos de dados e resultados brutos tornam-se fontes para o desenvolvimento futuro e novos fluxos de trabalho.

O papel da linhagem de dados, da conformidade e da proteção da propriedade intelectual na IA confiável.

Mas manter os conjuntos de dados por mais tempo também serve a outras funções críticas para os negócios, pois protege a propriedade intelectual da empresa. Ele armazena "recibos" dos conjuntos de dados e processos originais do modelo, fornecendo uma explicação dos resultados quando necessário (por exemplo, como parte de um processo legal).

Esses recibos estabelecem a linhagem dos dados, delineando um registro claro do percurso que os dados fazem desde a entrada até a saída. A linhagem de dados permite que as organizações rastreiem a origem e o uso de conjuntos de dados, para que os modelos de IA sejam construídos com base em dados precisos. Isso permite que os sistemas de IA sejam totalmente auditáveis ​​e oferece suporte tanto à conformidade regulatória quanto à prestação de contas interna.

Além disso, as empresas podem optar por armazenar mais dados por mais tempo porque percebem que não podem saber hoje quais novas e valiosas informações os algoritmos de amanhã poderão descobrir a partir dos dados de ontem. A retenção de dados por períodos mais longos permite o processamento de dados antigos por modelos de IA ainda em desenvolvimento. Por esses motivos, um período mais longo de retenção de dados aumenta o valor comercial que a IA pode proporcionar.

Em uma descoberta relacionada, os responsáveis ​​pela tomada de decisões em infraestrutura consideram a retenção prolongada de dados essencial para construir confiança — uma base fundamental sem a qual as informações obtidas por meio de IA têm pouco valor.

88% dos participantes cujas empresas usam IA hoje acreditam que a adoção de IA confiável aumenta a necessidade de armazenar mais dados por períodos de tempo mais longos.

O gráfico mostra que 88% das empresas que adotaram IA acreditam que os requisitos de confiança e governança exigirão períodos mais longos de retenção de dados.

Figura 3. 88% dos entrevistados cujas empresas utilizam IA atualmente afirmaram que a adoção de IA confiável exige uma necessidade crescente de armazenamento de mais dados por períodos mais longos.

A Seagate define a IA confiável como fluxos de trabalho e modelos de dados de IA que utilizam entradas confiáveis e geram insights precisos. A IA confiável é baseada em dados que atendem aos seguintes critérios:

  • Alta qualidade e precisão
  • Legalidade, propriedade e proveniência claras.
  • Armazenamento e proteção seguros
  • Transformações explicáveis ​​e rastreáveis ​​pelo algoritmo
  • Resultados consistentes e confiáveis ​​do processamento de dados

Uma infraestrutura de armazenamento escalável suporta IA confiável porque gerencia, armazena e protege adequadamente grandes quantidades de dados usados ​​por sistemas de IA.

Como parte da construção de uma IA confiável, 80% dos participantes da pesquisa enfatizaram a importância do checkpointing.

Ponto de verificação: Por que as atualizações frequentes de modelos dependem de armazenamento em disco rígido confiável e de alta capacidade?

Checkpointing é o processo de salvar o estado de um modelo de IA em intervalos curtos e específicos durante seu treinamento. Os modelos de IA são treinados em grandes conjuntos de dados por meio de processos iterativos, que podem levar de minutos a meses. A duração do treinamento de um modelo depende da complexidade do modelo, do tamanho do conjunto de dados e da capacidade computacional disponível. Durante esse período, os modelos recebem dados, os parâmetros são ajustados e o sistema aprende a prever resultados com base nas informações que processa.

  • Essencialmente, os pontos de verificação funcionam como instantâneos do estado atual do modelo — seus dados, parâmetros e configurações — em vários momentos durante o treinamento. Capturas de tela salvas em intervalos regulares preservam um registro da evolução do modelo e protegem contra a perda de dados causada por interrupções inesperadas.

Segundo a pesquisa, empresas que utilizam mais de 100 PB de armazenamento salvam e fazem backup de pontos de verificação diariamente ou semanalmente, sendo que 87% delas armazenam esses pontos de verificação na nuvem ou em uma combinação de discos rígidos e SSDs.

Para suportar o checkpointing nessa escala, as empresas precisam de sistemas de armazenamento capazes de sustentar uma atividade de gravação constante sem interromper o progresso do modelo. Discos rígidos de alta capacidade e arquiteturas de nuvem híbrida proporcionam a confiabilidade e a relação custo-benefício necessárias para manter esses ciclos rápidos de snapshots. Ao capturar e proteger consistentemente os pontos de verificação, as organizações podem salvaguardar o progresso do treinamento, acelerar a recuperação de interrupções e manter fluxos de trabalho de desenvolvimento de IA estáveis ​​e previsíveis.

Armazenamento: O segredo por trás de sistemas de IA escaláveis ​​e econômicos

Computação e energia são temas populares nas discussões sobre a adoção da IA. Mas a pesquisa da Recon Analytics destaca o armazenamento como o fator crítico.

  • Do ponto de vista dos compradores de infraestrutura, o armazenamento de dados foi classificado como a segunda parte mais importante da infraestrutura de IA, atrás apenas da segurança. Segurança e armazenamento foram seguidos por gerenciamento de dados, capacidade de rede, computação, regulamentações, viabilidade do LLM e energia, em ordem de importância.
  • Dois terços (66%) dos entrevistados classificaram o armazenamento como o segundo fator mais importante entre os quatro principais facilitadores de IA e como a quarta barreira mais importante para a adoção.
Gráfico de barras horizontais mostrando como os participantes da pesquisa classificam os casos de uso de aplicações de IA entre suas quatro principais prioridades.

Figura 4. 66% dos responsáveis ​​pela tomada de decisões em infraestrutura classificaram o armazenamento como o segundo componente mais importante entre os quatro principais facilitadores de IA. Eles também classificaram o armazenamento como a quarta barreira mais importante para a implantação de IA.

“Os resultados da pesquisa geralmente indicam um aumento repentino na demanda por armazenamento de dados, com os discos rígidos emergindo como o claro vencedor. Considerando que os líderes empresariais que entrevistamos pretendem armazenar cada vez mais dados gerados por IA na nuvem, os serviços em nuvem estão bem posicionados para aproveitar uma segunda onda de crescimento.”


Roger Entner, fundador e analista principal da Recon, descreve a principal conclusão da seguinte forma:

Para obter o máximo valor da IA, as empresas devem se preparar com um armazenamento de dados escalável e eficiente. Seja diretamente ou por meio de serviços em nuvem, a dependência da IA em relação aos dados baseia‑se em discos rígidos — que oferecem capacidade incomparável, eficiência de custo e sustentabilidade — como a espinha dorsal de uma IA confiável.

Os discos rígidos oferecem vantagens incomparáveis ​​em termos de custo por TB para armazenamento de IA em larga escala. Discos rígidos de alta capacidade oferecem o equilíbrio ideal entre escalabilidade, eficiência energética e sustentabilidade, permitindo que as empresas expandam sua capacidade de armazenamento sem ultrapassar as restrições orçamentárias ou de energia.