Quando a escala exige desempenho: Como um provedor global de serviços de nuvem atende a ambas as necessidades com discos rígidos
28 jun, 2025
À medida que os requisitos de multi-tenancy e alto desempenho reformulam a infraestrutura de dados, uma das mudanças mais consequentes está acontecendo não apenas nos clusters de treinamento, mas nos sistemas que respondem em tempo real a bilhões de interações de usuário.
Em um dos maiores gigantes da Internet do mundo1, os arquitetos de infraestrutura trabalharam recentemente para reimaginar uma carga de trabalho importante vinculada ao envolvimento do usuário: a infraestrutura de cache que oferece suporte à atividade de comentários em mídia sociais (ou seja, uma camada de dados temporária que possibilita o acesso rápido a conteúdos solicitados com frequência). O que estava em jogo era alto — volumes de tráfego em alta velocidade, alta simultaneidade e demanda pesada de leitura/gravação —, assim como a necessidade de reduzir custos e energia em escala. A equipe identificou uma solução estratégica, porém não convencional: uma camada de cache baseada em disco rígido, desenvolvida com base em discos corporativos de baixa capacidade da Seagate.
Algumas pessoas supõem que essa camada exija flash, mas a análise de carga de trabalho mostrou que os discos rígidos atendem às demandas de desempenho ao mesmo tempo em que oferecem benefícios significativos de custo e eficiência, principalmente para as cargas de trabalho de inferência e armazenamento de dados, que costumam ser mais restritas por custo, consumo de energia e escala do que pela latência bruta.
Essa arquitetura ilustra o que é possível quando as decisões sobre infraestrutura são baseadas no comportamento de carga de trabalho real, e como os discos rígidos, quando usados estrategicamente, podem possibilitar operações de alto desempenho, escaláveis e econômicas em escala global.
A meta da carga de trabalho em foco era possibilitar acesso rápido e confiável aos dados de comentário de usuários durante o envolvimento de conteúdo viral — um desafio que rapidamente se torna complexo em grande escala. Mas o volume e a volatilidade da demanda a tornavam tudo menos comum.
Quando um conteúdo torna-se viral, o envolvimento atinge o pico instantaneamente. De milhares a milhões de usuários podem acessar um único assunto em poucos minutos, curtindo, respondendo, atualizando e republicando. O sistema deve suportar uma enxurrada rápida de leituras e gravações de objetos pequenos, atingindo um pico agudo e depois caindo com a mesma rapidez. Embora o desempenho seja importante, ele só fornece valor quando gargalos do sistema permitem que ele seja utilizado.
Os arquitetos da plataforma precisavam fornecer suporte a:
O armazenamento em camadas quente/frio tradicional era ineficaz para esse tipo de padrão dinâmico. Embora a flash pudesse atender às necessidades de desempenho, seu custo, desgaste e perfil de energia a tornavam insustentável nessa camada da arquitetura.
É uma suposição comum que as camadas de cache, principalmente para sistemas voltados para o usuário, devem ser baseadas em flash para atender às necessidades de desempenho. Mas, neste caso, uma análise detalhada da carga de trabalho revelou que o throughput (a taxa na qual os dados podem ser lidos ou gravados por segundo) e a simultaneidade (a capacidade de lidar com muitas solicitações simultâneas) foram os fatores limitadores, e não a latência em nível de microssegundos. Os discos rígidos apresentam um alto desempenho nessas dimensões e, em arquiteturas no nível do sistema projetadas para maximizar esses pontos fortes (por meio de paralelismo, estratégias de armazenamento em cache e armazenamento em camadas inteligente), eles podem superar as configurações baseadas em flash para a mesma carga de trabalho.
Usando essa combinação de pontos fortes, o provedor de nuvem pôde:
Entre essas implementações, os discos rígidos corporativos oferecem um custo de aquisição por terabyte drasticamente mais baixo — atualmente mais de 7 vezes menos do que o dos SSDs, segundo análises da Seagate de uma pesquisa realizada pela IDC, TRENDFOCUS e Forward Insights. Esse delta pode influenciar significativamente as escolhas arquitetônicas, principalmente quando a eficiência e a resistência do cache fazem parte da equação.
A arquitetura final implementou discos rígidos corporativos de baixa capacidade da Seagate como uma camada de cache persistente e os posicionou entre uma camada de aplicativos primária e uma camada de nuvem baseada em disco rígido de alta capacidade. A configuração foi criada usando gabinetes que a equipe já tinha em uso com outras cargas de trabalho, permitindo a reutilização eficiente do sistema.
Funciona assim:
Geralmente, os discos na camada de armazenamento em cache operam priorizando os diâmetros externos de seus pratos para o espaço de cache utilizável, otimizando o comportamento de gravação e maximizando o desempenho efetivo para o caso de uso.
Este diagrama de arquitetura ilustra como o armazenamento em cache baseado em disco rígido, o armazenamento profundo e os serviços de aplicativo funcionam juntos para lidar com rajadas de dados virais de maneira eficiente e econômica.
A implantação forneceu aprimoramentos significativos no custo geral da infraestrutura e na eficiência energética, mantendo as demandas de alto desempenho da carga de trabalho com discos projetados para proporcionar throughput sustentado, resistência de gravação, disponibilidade de dados sob pressão e implantação em escala de frota.
A maioria das cargas de trabalho de inferência e armazenamento de dados é restrita mais pelo custo, consumo de energia e escala do que pela latência bruta, fazendo dos discos rígidos uma solução prática para a camada arquitetônica certa.
No momento da publicação, essa arquitetura de plataforma estava sendo ativamente implementada pelo cliente em regiões importantes, com avaliação contínua para uma implantação mais ampla. Os primeiros indicadores foram fortes: as métricas de desempenho de cache se mantiveram estáveis, a experiência do usuário permaneceu responsiva e o TCO foi aprimorado.
Se os resultados do piloto continuarem se mantendo, a plataforma poderá expandir esse modelo significativamente, com volumes de implementação anual em potencial alcançando quantidades de disco de seis dígitos, refletindo a demanda por mais de 6 EB por ano e a confiança nos discos rígidos para fornecer desempenho e eficiência na escala da frota.
Essa não é uma otimização excepcional, é um padrão que está surgindo para criar um compartilhamento melhor de imagens, microblogs, vídeos e outros tipos de conteúdo, nos quais a simultaneidade do usuário final e a relevância geram requisitos de infraestrutura e possibilitam uma maior rentabilidade da plataforma.
O sucesso desse design não se deve a uma única inovação, mas a três princípios básicos que irão ecoar entre outros arquitetos de plataformas de IA:
Os discos rígidos não “conquistaram” o flash aqui, eles simplesmente fizeram sentido. Alinhar desempenho, custo e eficiência operacional em um ambiente real é isso. Na infraestrutura corporativa e de nuvem, eles continuam a atender à grande maioria das cargas de trabalho de dados nas quais o throughput, a eficiência e a escala são mais importantes.
Para atender às necessidades de desempenho, as cargas de trabalho modernas precisam de computação e armazenamento expansíveis, principalmente porque o sucesso do modelo depende da relevância contínua e imediata do usuário final.
À medida que a IA e outras cargas de trabalho modernas continuam a moldar o design de infraestrutura entre os setores, a questão não é se devem ser usados discos rígidos ou flash. É como criar sistemas que reflitam o comportamento de carga de trabalho real, restrições reais e oportunidades reais de otimização.
Esse provedor de serviços de nuvem global provou que os discos rígidos não são apenas relevantes, eles são essenciais para a forma como as arquiteturas modernas evoluem para a expansão, garantindo acesso e disponibilidade responsivos de dados mesmo sob demanda de pico.
Anonimizado por acordo de confidencialidade mútuo.