27 jan, 2025
As cargas de trabalho de IA geram volumes massivos de dados estruturados e não estruturados. Para suportar os ciclos de treinamento, inferência e retreinamento, as empresas precisam de armazenamento escalável e de alta capacidade que possa lidar com o crescimento contínuo de dados.
Não há sucesso em IA sem dados — e muitos dados.
E não existem conjuntos de dados massivos sem um armazenamento de dados amplo e eficiente. As cargas de trabalho de IA criam fluxos contínuos de dados — desde conjuntos de dados de treinamento e registros de inferência até metadados, incorporações e saídas de modelos. Com a expansão da IA generativa e dos grandes modelos de linguagem (LLMs), o volume e a variedade de dados empresariais crescem exponencialmente. Essa rápida expansão exige arquiteturas de armazenamento capazes de lidar com ingestão constante, acesso em alta velocidade e preservação confiável ao longo do tempo.
Os dados sustentam a IA e os discos rígidos de grande capacidade sustentam os dados.
Essas informações são evidenciadas por uma pesquisa de 2025 da empresa de pesquisa Recon Analytics.
A pesquisa global fornece detalhes sobre como empresas de diversos setores estão adaptando sua infraestrutura para dar suporte à IA. Os participantes representam organizações que já utilizam ou planejam utilizar IA, oferecendo insights sobre as demandas de armazenamento, os desafios de escalabilidade e o futuro da infraestrutura de dados corporativa.
A pesquisa global comissionada pela Seagate entrevistou 1.062 participantes. São compradores e tomadores de decisão de armazenamento de TI que trabalham em funções de infraestrutura de armazenamento para empresas que reportam mais de US$ 10 milhões em receita anual, têm mais de 50 terabytes (TB) de uso de armazenamento atual, adotaram IA ou planejam adotá-la nos próximos três anos e estão localizadas nos Estados Unidos, China, Reino Unido, Coreia do Sul, Singapura, França, Índia, Japão, Taiwan e Alemanha.
A pesquisa focou nos efeitos da adoção da IA nas prioridades de infraestrutura, retenção de dados e gerenciamento de dados. Os resultados lançam luz sobre como a IA afetará as necessidades de infraestrutura nos próximos três anos.
A mais recente pesquisa da Recon Analytics revela uma mudança crucial na forma como as empresas estão planejando seus ecossistemas de dados para a era da IA. Em vez de tratar a IA como uma iniciativa isolada, as organizações estão agora reavaliando as estratégias de armazenamento, a alocação de recursos e o projeto de infraestrutura a longo prazo em resposta à crescente adoção da IA. A pesquisa revela como os líderes globais de TI estão se preparando para um futuro em que o crescimento de dados, os requisitos de retenção e as expectativas de desempenho aumentarão mais rapidamente do que nunca.
Em primeiro lugar, a pesquisa demonstrou que a adoção da IA está impulsionando um crescimento exponencial na demanda por armazenamento de dados até 2028.
Até 61% dos entrevistados de empresas que usam predominantemente armazenamento em nuvem disseram que o armazenamento baseado em nuvem de suas empresas teria que aumentar em mais de 100% — ou seja, teria que dobrar — nos próximos três anos.
Figura 1. 61% dos entrevistados cujas empresas utilizam principalmente armazenamento em nuvem para o gerenciamento de dados de IA esperam aumentar suas necessidades de armazenamento em 100% ou mais.
À medida que as aplicações de IA impulsionam a criação de dados sem precedentes, quanto mais dados as organizações armazenam, mais podem validar se a IA está funcionando conforme o esperado. Com acesso a dados comportamentais — como conjuntos de dados de treinamento, pontos de verificação do modelo, instruções e respostas — as empresas podem analisar algoritmos minuciosamente e compreender e refinar melhor a tomada de decisões por IA. Sem a escala e a eficiência dos data centers, o potencial da IA seria limitado, visto que a capacidade de armazenar e recuperar conjuntos de dados massivos é fundamental para o sucesso da IA.
Não é apenas a quantidade de armazenamento que impulsiona o sucesso da IA. A duração do armazenamento de dados também é importante.
Setores como o financeiro, o da saúde, o industrial e as operações governamentais dependem da retenção de clientes a longo prazo para atender aos requisitos de conformidade e às necessidades de auditoria. A preservação de dados históricos fortalece as estruturas de governança, apoia a elaboração de relatórios regulatórios e torna os resultados da IA mais precisos ao longo do tempo.
Dos entrevistados empregados por empresas que adotaram a tecnologia de IA, 90% acreditam que uma retenção de dados mais longa melhora a qualidade dos resultados da IA.
Figura 2. 90% das empresas que utilizam IA atualmente acreditam que reter mais dados históricos melhora a precisão do modelo.
Essa descoberta aponta para uma correlação entre preservar dados por períodos mais longos e insights de IA mais confiáveis. Isso pode dever-se a vários fatores. Primeiro, o processamento iterativo constante é intrínseco à forma como os algoritmos de IA funcionam. As saídas de conteúdo retroalimentam o modelo, aprimorando sua precisão e possibilitando novos modelos. Conjuntos de dados e resultados brutos tornam-se fontes para o desenvolvimento futuro e novos fluxos de trabalho.
Mas manter os conjuntos de dados por mais tempo também serve a outras funções críticas para os negócios, pois protege a propriedade intelectual da empresa. Ele armazena "recibos" dos conjuntos de dados e processos originais do modelo, fornecendo uma explicação dos resultados quando necessário (por exemplo, como parte de um processo legal).
Esses recibos estabelecem a linhagem dos dados, delineando um registro claro do percurso que os dados fazem desde a entrada até a saída. A linhagem de dados permite que as organizações rastreiem a origem e o uso de conjuntos de dados, para que os modelos de IA sejam construídos com base em dados precisos. Isso permite que os sistemas de IA sejam totalmente auditáveis e oferece suporte tanto à conformidade regulatória quanto à prestação de contas interna.
Além disso, as empresas podem optar por armazenar mais dados por mais tempo porque percebem que não podem saber hoje quais novas e valiosas informações os algoritmos de amanhã poderão descobrir a partir dos dados de ontem. A retenção de dados por períodos mais longos permite o processamento de dados antigos por modelos de IA ainda em desenvolvimento. Por esses motivos, um período mais longo de retenção de dados aumenta o valor comercial que a IA pode proporcionar.
Em uma descoberta relacionada, os responsáveis pela tomada de decisões em infraestrutura consideram a retenção prolongada de dados essencial para construir confiança — uma base fundamental sem a qual as informações obtidas por meio de IA têm pouco valor.
88% dos participantes cujas empresas usam IA hoje acreditam que a adoção de IA confiável aumenta a necessidade de armazenar mais dados por períodos de tempo mais longos.
Figura 3. 88% dos entrevistados cujas empresas utilizam IA atualmente afirmaram que a adoção de IA confiável exige uma necessidade crescente de armazenamento de mais dados por períodos mais longos.
A Seagate define a IA confiável como fluxos de trabalho e modelos de dados de IA que utilizam entradas confiáveis e geram insights precisos. A IA confiável é baseada em dados que atendem aos seguintes critérios:
Uma infraestrutura de armazenamento escalável suporta IA confiável porque gerencia, armazena e protege adequadamente grandes quantidades de dados usados por sistemas de IA.
Como parte da construção de uma IA confiável, 80% dos participantes da pesquisa enfatizaram a importância do checkpointing.
Checkpointing é o processo de salvar o estado de um modelo de IA em intervalos curtos e específicos durante seu treinamento. Os modelos de IA são treinados em grandes conjuntos de dados por meio de processos iterativos, que podem levar de minutos a meses. A duração do treinamento de um modelo depende da complexidade do modelo, do tamanho do conjunto de dados e da capacidade computacional disponível. Durante esse período, os modelos recebem dados, os parâmetros são ajustados e o sistema aprende a prever resultados com base nas informações que processa.
Segundo a pesquisa, empresas que utilizam mais de 100 PB de armazenamento salvam e fazem backup de pontos de verificação diariamente ou semanalmente, sendo que 87% delas armazenam esses pontos de verificação na nuvem ou em uma combinação de discos rígidos e SSDs.
Para suportar o checkpointing nessa escala, as empresas precisam de sistemas de armazenamento capazes de sustentar uma atividade de gravação constante sem interromper o progresso do modelo. Discos rígidos de alta capacidade e arquiteturas de nuvem híbrida proporcionam a confiabilidade e a relação custo-benefício necessárias para manter esses ciclos rápidos de snapshots. Ao capturar e proteger consistentemente os pontos de verificação, as organizações podem salvaguardar o progresso do treinamento, acelerar a recuperação de interrupções e manter fluxos de trabalho de desenvolvimento de IA estáveis e previsíveis.
Computação e energia são temas populares nas discussões sobre a adoção da IA. Mas a pesquisa da Recon Analytics destaca o armazenamento como o fator crítico.
Figura 4. 66% dos responsáveis pela tomada de decisões em infraestrutura classificaram o armazenamento como o segundo componente mais importante entre os quatro principais facilitadores de IA. Eles também classificaram o armazenamento como a quarta barreira mais importante para a implantação de IA.
“Os resultados da pesquisa geralmente indicam um aumento repentino na demanda por armazenamento de dados, com os discos rígidos emergindo como o claro vencedor. Considerando que os líderes empresariais que entrevistamos pretendem armazenar cada vez mais dados gerados por IA na nuvem, os serviços em nuvem estão bem posicionados para aproveitar uma segunda onda de crescimento.”
Roger Entner, fundador e analista principal da Recon, descreve a principal conclusão da seguinte forma:
Para obter o máximo valor da IA, as empresas devem se preparar com um armazenamento de dados escalável e eficiente. Seja diretamente ou por meio de serviços em nuvem, a dependência da IA em relação aos dados baseia‑se em discos rígidos — que oferecem capacidade incomparável, eficiência de custo e sustentabilidade — como a espinha dorsal de uma IA confiável.
Os discos rígidos oferecem vantagens incomparáveis em termos de custo por TB para armazenamento de IA em larga escala. Discos rígidos de alta capacidade oferecem o equilíbrio ideal entre escalabilidade, eficiência energética e sustentabilidade, permitindo que as empresas expandam sua capacidade de armazenamento sem ultrapassar as restrições orçamentárias ou de energia.