X

Ponto de vista da Seagate SSD e a evolução do armazenamento em camadas para empresas

Com a distribuição em camadas, os clientes OEM agregam mais valor do que simplesmente embalar dispositivos.

História do armazenamento em camadas

A divisão em camadas (tiering) é a capacidade de mover dados entre diferentes classes de armazenamento para otimizar o investimento do usuários no desempenho. A solução de camadas original foi, provavelmente, uma versão da IBM do gerenciamento de armazenamento hierárquico (HSM), nos anos 1980, que oferecia a capacidade de mover arquivos entre disco e fita, dependendo dos níveis de atividade. Mais tarde, outras empresas desenvolveram produtos HSM, mas nenhuma foi especialmente bem-sucedida. Mais recentemente, o provisionamento fino trouxe um avanço, fazendo com que o gerenciamento de dados ocorresse em nível do bloco, em vez de em nível do arquivo. Essa funcionalidade voltada ao bloco forneceu um contexto no qual se tornou possível um movimento muito mais refinado dos dados contidos em discos de desempenho crucial.

A introdução das unidades de estado sólido (SSD) gerou uma necessidade fundamental de posicionar dados dinamicamente. No entanto, a primeira abordagem nas vendas de SSD era a de simplesmente destacar sua rapidez e esperar que os usuários comprassem o produto e ficassem impressionados. Essa abordagem não foi tão bem-sucedida quanto os fornecedores de SSD esperavam.

O desafio do SSD

Os SSDs apresentam duas características diferentes para o armazenamento corporativo: alto desempenho sem precedentes e alto custo sem precedentes. Os usuários querem usá-los para acelerar o acesso a seus dados mais importantes, mas não podem arcar com o custo de realocar uma porcentagem significativa de sua capacidade aos SSDs. Eles são obrigados a decidir o que é mais vantajoso no aprimoramento do serviço de sua carga de trabalho e mover somente esses dados para os SSDs.

Na tentativa de implantar SSDs, os usuários enfrentam três problemas imediatos:

  1. A falta de ferramentas que identifiquem corretamente os dados mais ativos.
  2. Mesmo quando é possível identificar os dados mais usados, nem sempre é possível segregá-los (como segregar os registros do banco de dados usados com mais frequência do resto do banco de dados, ou os metadados do sistema de arquivos do resto do sistema de arquivos).
  3. Conforme as condições mudam com o passar do tempo, o melhor candidato para os dados de SSD nem sempre é o mais indicado.

O armazenamento em camadas oferece a chance de solucionar esses problemas e dá aos clientes OEM a oportunidade de agregar mais valor do que simplesmente embalar dispositivos de armazenamento e colocar sua marca na caixa.

A solução de camadas

Imagine um subsistema com diversos discos rígidos e vários SSDs. Em uma configuração desse tipo, o software de camadas monitora a atividade dos discos e move dinamicamente os blocos mais usados para os SSDs, de modo que a atividade mais intensa seja alocada aos SSDs. Periodicamente, a função de camadas revisa os níveis de atividade do subsistema, move os dados que passaram a ser menos acessados de volta para os discos magnéticos e os substitui pelos dados mais ativos no momento.

Isso resolve todos os problemas no desafio de implantar o SSD. 1) O armazenamento em camadas eliminou a necessidade de o usuário medir a atividade do disco e ajustar o posicionamento dos dados mais usados. 2) Como o armazenamento em camadas funciona no nível do bloco, o movimento não é restrito à granularidade de arquivos ou bancos de dados. 3) Essa é uma função constantemente em execução no subsistema e reajusta o local dos dados em SSD/HDD dinamicamente com base na atividade recente.

O diabo está nos detalhes

Teoricamente, uma função de camadas como a descrita acima deveria proporcionar ao usuário o aprimoramento máximo em desempenho com o investimento em SSDs. Na prática, isso não é tão simples. Não é possível gerenciar cada bloco de um subsistema individualmente. Seria necessária muita memória na controladora do subsistema e isso exigiria um overhead excessivo.

Para alcançar um equilíbrio entre o overhead e o aprimoramento, a função de camadas precisa se otimizar com base, principalmente, em duas variáveis: 1) com que frequência reavaliar a alocação de dados entre camadas e 2) quantos dados incluir no pedaço mínimo de armazenamento a ser monitorado e movido. Um valor razoável para a última variável seria entre 1 MB e 0,5 GB. Dessa forma, o serviço de camadas manteria estatísticas sobre a atividade de cada 1 MB, por exemplo, de espaço em disco no subsistema. Periodicamente, ele moveria os que tivessem maior atividade para o armazenamento SSD, retornando aos HDDs os menos ativos dos MBs que estavam nos SSDs (se não houvesse atividade de gravação em um MB específico, ele seria descartado). Entretanto, se essa reavaliação fosse feita com muita frequência, o overhead de mover dados entre camadas poderia anular o benefício de desempenho de ter os dados nos SSDs. Sendo assim, uma política de frequência talvez tenha de incluir a tomada de decisão dinâmica baseada no nível de atividade geral e na taxa na qual os picos de E/S passam de alguns pedaços de MB para outros. Outra dificuldade é a complexidade que um subsistema de camadas apresenta. Mesmo que o usuário não precise mais gerenciar o posicionamento de dados, ainda há muito para supervisionar. Ajustar essas duas políticas, bem como outras políticas necessárias para obter o máximo da solução de camadas, exige muito treinamento do operador/administrador. É necessário ter experiência em gerenciamento para configurar e manter um subsistema de camadas e alcançanr o melhor desempenho possível.

A necessidade de uma terceira camada

Os defensores do armazenamento em camadas costumavam afirmar que, com o aprimoramento oferecido pelos SSDs, o armazenamento poderia ser simplificado em uma camada de SSD (geralmente chamada de Camada 0) e uma camada de baixo custo e alta capacidade (Camada 2), eliminando totalmente a necessidade de discos para atividades cruciais. Uma pesquisa recente e comentários de clientes deixam clara a necessidade de manter uma terceira camada (Camada 1) com discos rígidos de alto desempenho, para fornecer desempenho otimizado no que se refere aos padrões de dados que não são bem atendidos pelos SSDs: atividade de leitura sequencial e gravação pesada, sequencial ou aleatória. Na verdade, esse é um problema mais geral. Um investimento razoável em SSDs deixa de lado grande parte do aprimoramento de desempenho (mais especificamente, em discos rígidos). Agora, há uma clara evidência de que alguns de nossos clientes estão orçando subsistemas de camadas exatamente como esses, com três camadas, para·obter desempenho otimizado. Em um caso específico, quando o gerente de TI solicitou uma solução de armazenamento em camadas para solucionar um problema grave de desempenho em um sistema de produção, o fornecedor ofereceu o orçamento de um sistema de três camadas com mais da metade da capacidade agregada em discos de 15.000 RPM, e não em discos de Camada 2!

Resumo

O armazenamento em camadas evoluiu de seus primeiros esforços razoavelmente simples a algo muito mais sofisticado e eficiente. Embora não tenham sido eliminados todos os desafios de gerenciamento associados aos vários níveis de desempenho de armazenamento, a solução de camadas está provando ser um ingrediente valioso em um subsistema de armazenamento, dando ao usuário final a melhor chance de obter o benefício de desempenho ao investir em unidades SSD.

No entanto, não há motivos para pensar que essa evolução terminou. Avanços tecnológicos continuarão a refinar e aprimorar a capacidade dos usuários de obter o máximo desempenho de um investimento em armazenamento.

Etiqueta:

Produtos relacionados
600 Pro SSD - Principal
Seagate 600 Pro SSD

Centrais de dados de hiperescala, a melhor eficiência de desempenho da categoria (IOPS/W).

1200 SSD
Seagate 1200 SSD

Virtualização de servidor, processamento de transações online, computação de alto desempenho e analítica de dados pesada.

Pulsar - principal
Seagate Pulsar SAS SSD

Computação em nuvem e aplicações para centrais de dados com volume de leitura intenso.

ARTIGOS DE PONTO DE VISTA RELACIONADOS
Mercado de fornecimento de NAND Flash

Investimento superior a $750B necessário para a SSD substituir negócios de HDD de $30B

Mais
SSDs corporativas sustentam a velocidade dos negócios

SSDs se combinam com HDDs para atender às demandas das centrais de dados

Mais
ARTIGOS DE INFORMAÇÕES PRÁTICAS RELACIONADOS
A Seagate é líder mundial no fornecimento de dispositivos de armazenamento e discos rígidos usados no armazenamento e na computação em nuvem.
A demanda por dispositivos de armazenamento em um mundo de dados conectado

Ecossistemas de dados em nuvem requerem capacidade de armazenamento digital

Mais