Perspective

28 jun, 2025

DATA CENTER CORPORATIVO

Quando a escala exige desempenho: Como um provedor global de serviços de nuvem atende a ambas as necessidades com discos rígidos

Perspective

Duas mãos seguram um smartphone exibindo ícones como texto, polegar para cima, coração e mais, mostrando uma atividade digital diversificada

À medida que os requisitos de multi-tenancy e alto desempenho reformulam a infraestrutura de dados, uma das mudanças mais consequentes está acontecendo não apenas nos clusters de treinamento, mas nos sistemas que respondem em tempo real a bilhões de interações de usuário.

Em um dos maiores gigantes da Internet do mundo1, os arquitetos de infraestrutura trabalharam recentemente para reimaginar uma carga de trabalho importante vinculada ao envolvimento do usuário: a infraestrutura de cache que oferece suporte à atividade de comentários em mídia sociais (ou seja, uma camada de dados temporária que possibilita o acesso rápido a conteúdos solicitados com frequência). O que estava em jogo era alto — volumes de tráfego em alta velocidade, alta simultaneidade e demanda pesada de leitura/gravação —, assim como a necessidade de reduzir custos e energia em escala. A equipe identificou uma solução estratégica, porém não convencional: uma camada de cache baseada em disco rígido, desenvolvida com base em discos corporativos de baixa capacidade da Seagate.

Algumas pessoas supõem que essa camada exija flash, mas a análise de carga de trabalho mostrou que os discos rígidos atendem às demandas de desempenho ao mesmo tempo em que oferecem benefícios significativos de custo e eficiência, principalmente para as cargas de trabalho de inferência e armazenamento de dados, que costumam ser mais restritas por custo, consumo de energia e escala do que pela latência bruta.

Essa arquitetura ilustra o que é possível quando as decisões sobre infraestrutura são baseadas no comportamento de carga de trabalho real, e como os discos rígidos, quando usados estrategicamente, podem possibilitar operações de alto desempenho, escaláveis e econômicas em escala global.

Compreendendo as cargas de trabalho de dados: Rajadas curtas, alta simultaneidade

A meta da carga de trabalho em foco era possibilitar acesso rápido e confiável aos dados de comentário de usuários durante o envolvimento de conteúdo viral — um desafio que rapidamente se torna complexo em grande escala. Mas o volume e a volatilidade da demanda a tornavam tudo menos comum.

Quando um conteúdo torna-se viral, o envolvimento atinge o pico instantaneamente. De milhares a milhões de usuários podem acessar um único assunto em poucos minutos, curtindo, respondendo, atualizando e republicando. O sistema deve suportar uma enxurrada rápida de leituras e gravações de objetos pequenos, atingindo um pico agudo e depois caindo com a mesma rapidez. Embora o desempenho seja importante, ele só fornece valor quando gargalos do sistema permitem que ele seja utilizado.

Os arquitetos da plataforma precisavam fornecer suporte a:

  • Volumes de acesso simultâneo extremamente alto em períodos curtos.
  • Tráfego pesado de leitura e gravação vinculado à atividade do usuário.
  • Cache de resposta rápida para proporcionar experiência de usuário, mas sem flash de baixa latência sempre ativo.

O armazenamento em camadas quente/frio tradicional era ineficaz para esse tipo de padrão dinâmico. Embora a flash pudesse atender às necessidades de desempenho, seu custo, desgaste e perfil de energia a tornavam insustentável nessa camada da arquitetura.

Taxa de transferência vs. latência: Repensando o cache de dados para desempenho na nuvem

É uma suposição comum que as camadas de cache, principalmente para sistemas voltados para o usuário, devem ser baseadas em flash para atender às necessidades de desempenho. Mas, neste caso, uma análise detalhada da carga de trabalho revelou que o throughput (a taxa na qual os dados podem ser lidos ou gravados por segundo) e a simultaneidade (a capacidade de lidar com muitas solicitações simultâneas) foram os fatores limitadores, e não a latência em nível de microssegundos. Os discos rígidos apresentam um alto desempenho nessas dimensões e, em arquiteturas no nível do sistema projetadas para maximizar esses pontos fortes (por meio de paralelismo, estratégias de armazenamento em cache e armazenamento em camadas inteligente), eles podem superar as configurações baseadas em flash para a mesma carga de trabalho.

Usando essa combinação de pontos fortes, o provedor de nuvem pôde:

  • Proporcionar alto throughput sequencial e simultâneo.
  • Manusear grandes volumes de dados durante picos intensos de curta duração.
  • Operar com um custo e consumo de energia mais baixos por terabyte, uma consideração importante à medida que os orçamentos térmicos e de energia do data center ficam cada vez mais restritos.

Entre essas implementações, os discos rígidos corporativos oferecem um custo de aquisição por terabyte drasticamente mais baixo — atualmente mais de 7 vezes menos do que o dos SSDs, segundo análises da Seagate de uma pesquisa realizada pela IDC, TRENDFOCUS e Forward Insights. Esse delta pode influenciar significativamente as escolhas arquitetônicas, principalmente quando a eficiência e a resistência do cache fazem parte da equação.

Cache do disco rígido: A solução para acesso escalável e eficiente a dados

A arquitetura final implementou discos rígidos corporativos de baixa capacidade da Seagate como uma camada de cache persistente e os posicionou entre uma camada de aplicativos primária e uma camada de nuvem baseada em disco rígido de alta capacidade. A configuração foi criada usando gabinetes que a equipe já tinha em uso com outras cargas de trabalho, permitindo a reutilização eficiente do sistema.

Funciona assim:

  • Durante a atividade de pico, os dados de comentários são gravados diretamente na camada de cache baseada no disco rígido.
  • Essa camada de dados baseada no disco rígido fornece o desempenho de alta capacidade e alta simultaneidade necessário para oferecer acesso rápido e repetível em escala global durante picos.
  • Assim que a demanda diminuir, os dados em cache são descarregados ou migrados para uma camada de armazenamento mais profunda, com discos de capacidade mais alta (por exemplo, 24 TB ou 30 TB).

Geralmente, os discos na camada de armazenamento em cache operam priorizando os diâmetros externos de seus pratos para o espaço de cache utilizável, otimizando o comportamento de gravação e maximizando o desempenho efetivo para o caso de uso.

Equilibrando custo, potência e desempenho na infraestrutura de armazenamento em nuvem

O fluxograma observa como os comentários entram no módulo de cache, movem-se de e para a camada de cache e armazenamento em nuvem, antes de irem para o sistema de processamento de comentários.

Este diagrama de arquitetura ilustra como o armazenamento em cache baseado em disco rígido, o armazenamento profundo e os serviços de aplicativo funcionam juntos para lidar com rajadas de dados virais de maneira eficiente e econômica.

A implantação forneceu aprimoramentos significativos no custo geral da infraestrutura e na eficiência energética, mantendo as demandas de alto desempenho da carga de trabalho com discos projetados para proporcionar throughput sustentado, resistência de gravação, disponibilidade de dados sob pressão e implantação em escala de frota.

  • O uso de discos rígidos corporativos de capacidade mais baixa forneceu o desempenho necessário a um custo de aquisição por terabyte significativamente mais baixo, em comparação com as alternativas baseadas em flash.
  • O consumo de energia por unidade de throughput caiu, pois os discos foram otimizados para picos de gravação sustentados, não para IOPS inativo. Geralmente, comparações no nível do sistema também mostram que os discos rígidos podem reduzir o consumo de energia por terabyte em até 70% em relação à flash QLC.
  • A equipe pôde reutilizar sua infraestrutura existente, minimizando o investimento em novo hardware e acelerando os prazos de implementação.
  • Um fato importante é que a camada de cache baseada em disco rígido continua a atender ou exceder as expectativas de taxa de acesso, apoiando o envolvimento perfeito dos comentários até mesmo nos picos de tráfego mais virais.

A maioria das cargas de trabalho de inferência e armazenamento de dados é restrita mais pelo custo, consumo de energia e escala do que pela latência bruta, fazendo dos discos rígidos uma solução prática para a camada arquitetônica certa.

Escalonamento do cache em nuvem: Do sucesso do piloto ao padrão global da plataforma

No momento da publicação, essa arquitetura de plataforma estava sendo ativamente implementada pelo cliente em regiões importantes, com avaliação contínua para uma implantação mais ampla. Os primeiros indicadores foram fortes: as métricas de desempenho de cache se mantiveram estáveis, a experiência do usuário permaneceu responsiva e o TCO foi aprimorado.

Se os resultados do piloto continuarem se mantendo, a plataforma poderá expandir esse modelo significativamente, com volumes de implementação anual em potencial alcançando quantidades de disco de seis dígitos, refletindo a demanda por mais de 6 EB por ano e a confiança nos discos rígidos para fornecer desempenho e eficiência na escala da frota.

Essa não é uma otimização excepcional, é um padrão que está surgindo para criar um compartilhamento melhor de imagens, microblogs, vídeos e outros tipos de conteúdo, nos quais a simultaneidade do usuário final e a relevância geram requisitos de infraestrutura e possibilitam uma maior rentabilidade da plataforma.

Lições importantes para a construção de arquiteturas de cache em nuvem escaláveis ​​e econômicas

O sucesso desse design não se deve a uma única inovação, mas a três princípios básicos que irão ecoar entre outros arquitetos de plataformas de IA:

  • Design para a carga de trabalho — não é a suposição — porque nem toda camada de alto desempenho precisa de flash.
  • Principais dimensões de desempenho — como throughput, simultaneidade, disponibilidade de gravação, velocidade de ingestão e utilização do sistema — costumam ser mais relevantes do que a latência bruta.
  • As camadas de armazenamento podem ser otimizadas — e até mesmo reutilizadas — para atender às demandas modernas com mais eficiência.

Os discos rígidos não “conquistaram” o flash aqui, eles simplesmente fizeram sentido. Alinhar desempenho, custo e eficiência operacional em um ambiente real é isso. Na infraestrutura corporativa e de nuvem, eles continuam a atender à grande maioria das cargas de trabalho de dados nas quais o throughput, a eficiência e a escala são mais importantes.

Consideração final: Construindo uma infraestrutura de nuvem que reflita cargas de trabalho reais

Para atender às necessidades de desempenho, as cargas de trabalho modernas precisam de computação e armazenamento expansíveis, principalmente porque o sucesso do modelo depende da relevância contínua e imediata do usuário final.

À medida que a IA e outras cargas de trabalho modernas continuam a moldar o design de infraestrutura entre os setores, a questão não é se devem ser usados discos rígidos ou flash. É como criar sistemas que reflitam o comportamento de carga de trabalho real, restrições reais e oportunidades reais de otimização.

Esse provedor de serviços de nuvem global provou que os discos rígidos não são apenas relevantes, eles são essenciais para a forma como as arquiteturas modernas evoluem para a expansão, garantindo acesso e disponibilidade responsivos de dados mesmo sob demanda de pico.

Notas de rodapé

Anonimizado por acordo de confidencialidade mútuo.

Tópicos relacionados:

Cloud Data Center