Por Praveen Viraraghavan

03 mar, 2025

IA

As crescentes necessidades de armazenamento para a infraestrutura de IA.

PraveenViraraghavan

As soluções de armazenamento com IA devem evoluir para lidar com o crescimento massivo de dados. Inovações como drives com dois atuadores, armazenamento baseado em NVMe e soluções de baixo consumo de energia estão moldando o futuro da infraestrutura de IA.

Índice

À medida que a inteligência artificial (IA) continua a avançar, a infraestrutura que a suporta deve evoluir para lidar com as crescentes demandas por armazenamento e processamento de dados. O armazenamento de dados tem um papel fundamental no ciclo de vida da infraestrutura de IA, e as soluções devem ser capazes de superar os desafios de IA atuais e futuros.

A quantidade de dados gerados diariamente é impressionante. De cidades inteligentes produzindo 143 petabytes de dados por dia, segundo um relatório da Kaleido Intelligence1 , a veículos autônomos gerando terabytes (TBs) de dados, a necessidade por soluções de armazenamento de dados eficientes está mais urgente do que nunca. As empresas de carros autônomos fazem upload de grandes quantidades de dados para provedores de serviços de nuvem, onde são processados e usados para aprimorar os modelos de IA. Esse fluxo contínuo de dados precisa de soluções de armazenamento robustas que possam lidar com o volume e a velocidade exigidos pelos aplicativos de IA.

Desempenho x consumo de energia.

Apesar do foco em tecnologias de ponta, como unidades de processamento gráfico (GPUs), os discos rígidos continuam sendo um componente crucial da infraestrutura de IA. Eles fornecem a capacidade de armazenamento necessária para os conjuntos de dados massivos usados no treinamento de IA e inferência. Enquanto as GPUs lidam com o trabalho pesado do processamento de dados, os discos rígidos armazenam os dados que alimentam esses processos. Esse relacionamento simbiótico garante que os sistemas de IA possam operar com eficiência sem sofrer gargalos por limitações de armazenamento.

Um dos maiores desafios na infraestrutura de IA é equilibrar desempenho e consumo de energia. À medida que os clusters GPU crescem, a energia necessária para executá-los aumenta significativamente. Por exemplo, grandes implantações como essas de líderes de IA envolvem milhares de GPUs, cada uma consumindo quantidades substanciais de energia. Isso cria uma necessidade por soluções de armazenamento que não só ofereçam alto desempenho , mas também operem de forma eficiente em termos de consumo de energia. Para colocar isso em perspectiva, uma única GPU pode consumir até 700 watts e implantações de grande escala podem envolver até 100.000 GPUs, resultando em um requisito de energia de 70 megawatts. Esse componente equivale à alocação de energia total de um data center grande. Dessa forma, as soluções de armazenamento devem ser projetadas para minimizar o consumo de energia e maximizar o desempenho, se quiserem se encaixar na solução junto com as GPUs.

A importância dos pontos de verificação.

Em treinamento de IA, checkpoints (pontos de verificação) são cruciais para evitar a perda do progresso em caso de falhas do sistema. Esses pontos de verificação salvam o estado do modelo de IA em intervalos regulares (por exemplo, a cada poucos minutos), permitindo que o processo de treinamento seja retomado do último estado salvo, em vez de recomeçar do zero. Isso é especialmente importante para sessões de treinamento longas, que podem durar semanas ou até mesmo meses. Os pontos de verificação eficientes requerem soluções de armazenamento rápidas que possam salvar e recuperar grandes quantidades de dados com rapidez.

Por exemplo, algumas plataformas de treinamento grandes realizam pontos de verificação a cada minuto durante o treinamento, salvando dados em unidades de estado sólido (SSDs) e depois transferindo-os para discos rígidos. Esse processo garante que, mesmo se ocorrer uma falha, o treinamento possa ser retomado com perda mínima de dados. O tamanho desses pontos de verificação pode ser substancial, sendo que alguns modelos exigem até 12 TB de armazenamento por ponto de verificação.

Os discos rígidos são essenciais para o checkpointing de IA devido à escalabilidade, economia, eficiência energética e sustentabilidade e longevidade.

Tendências futuras e inovações.

Pensando no futuro, a demanda por armazenamento de IA deverá crescer exponencialmente. Segundo dados da Bloomberg Intelligence, IDC, eMarketer e Statista2 , até 2032, o mercado de armazenamento com IA está projetado para atingir US$ 92 bilhões. Esse crescimento será impulsionado pela maior complexidade dos modelos de IA e pelo uso expansivo de IA em vários setores. Para atender a essas demandas, as soluções de armazenamento precisarão se tornar mais sofisticadas, oferecendo capacidades mais altas, velocidades mais rápidas e maior eficiência energética.

Várias inovações técnicas estão sendo exploradas para atender às necessidades de armazenamento da infraestrutura de IA:

  • Crescimento de densidade de área. O crescimento contínuo dos discos rígidos com a inovação das cabeças e da mídia dos dispositivos permite uma capacidade maior no mesmo formato. Os discos rígidos habilitados com Seagate Mozaic são o armazenamento de disco rígido mais eficiente do mundo, capaz de reduzir os custos de aquisição e operacionais e aumentar a produtividade. Com a maior densidade de área da Mozaic, os clientes podem armazenar mais dados sem aumentar o consumo de espaço, energia ou recursos naturais. A Mozaic 3+ ajuda os clientes a alcançar metas de sustentabilidade — uma prioridade para os data centers de grande escala — oferecendo uma redução de 55% em carbono incorporado por terabyte3.
  • Drives com atuador duplo. Esses drives oferecem desempenho aprimorado com o uso de dois atuadores para ler e gravar dados simultaneamente. Isso pode aprimorar significativamente o throughput de dados, facilitando para lidar com os grandes volumes de dados gerados por aplicativos de IA.
  • Discos rígidos baseados em NVMe. A tecnologia NVMe (non-volatile memory express) fornece acesso mais rápido a dados em comparação com as interfaces tradicionais SATA (serial advanced technology attachment) ou SAS (serial-attached SCSI [small computer system interface]). Ao adotar discos rígidos baseados em NVMe, os data centers podem alcançar desempenho mais alto e latência mais baixa, o que é crucial para cargas de trabalho de IA.
  • Interconexões ópticas. À medida que as taxas de transferência de dados aumentam, as interconexões de cobre tradicionais podem se tornar um gargalo. As interconexões ópticas oferecem maior largura de banda e latência mais baixa, possibilitando movimentação de dados mais rápida entre dispositivos de armazenamento e unidades de processamento.
  • Soluções de armazenamento da Seagate com consumo eficiente de energia. Com as crescentes demandas de energia da infraestrutura de IA, as soluções de armazenamento precisam ser mais eficientes no uso de energia. Isso inclui desenvolver discos que consumam menos energia, mantendo o alto desempenho, bem como explorar novas tecnologias de refrigeração para gerenciar o calor gerado por implementações de grande escala.

Demandas crescentes de armazenamento de IA.

As necessidades de armazenamento para a infraestrutura de IA estão evoluindo rapidamente, impulsionadas pelo crescimento exponencial de dados e a crescente complexidade dos modelos de IA. À medida que avançamos, será essencial desenvolver soluções de armazenamento que possam acompanhar essas demandas, para que os sistemas de IA possam continuar avançando e cumprir sua promessa de transformar setores e melhorar vidas.

 


 

  1.  Cellular IoT Connectivity Series: Smart Cities Opportunities & Forecasts, Kaleido Intelligence, 2023, https://kaleidointelligence.com/smart-cities-2027/
  2. Generative AI to Become a $1.3 Trillion Market by 2032, Research Finds, Bloomberg Intelligence, 2023, https://www.bloomberg.com/company/press/generative-ai-to-become-a-1-3-trillion-market-by-2032-research-finds/
  3. O disco Mozaic 3+ de 30 TB em comparação com um disco PMR convencional de 16 TB. O carbono incorporado inclui as emissões geradas durante a extração da matéria-prima, a fabricação/montagem de produtos e todo o transporte de materiais da extração à fabricação e da fabricação até os clientes.
Praveen Viraraghavan bio photo

Praveen Viraraghavan

Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.