Perspective

28 jun., 2025

BEDRIJFSDATACENTER

Wanneer de schaal prestaties vereist: Hoe een wereldwijde aanbieder van clouddiensten beide behoeften vervult met harde schijven

Perspective

Twee handen houden een smartphone vast met pictogrammen zoals tekst, duimen omhoog, hartje en meer, die diverse digitale activiteiten laten zien

Terwijl multi-tenancy en vereisten met hoge prestaties de gegevensinfrastructuur hervormen, vindt een van de meest ingrijpende verschuivingen niet alleen plaats in trainingsclusters, maar ook in de systemen die in realtime reageren op miljarden gebruikersinteracties.

Bij een van 's werelds grootste internetgiganten1zijn infrastructuurarchitecten onlangs begonnen met het herontwerpen van een belangrijke werkbelasting die samenhangt met gebruikersbetrokkenheid: de Cache-infrastructuur die commentaren op sociale media ondersteunt (d.w.z. een tijdelijke gegevenslaag die snelle toegang tot vaak opgevraagde inhoud mogelijk maakt). Er stond veel op het spel - grote verkeersvolumes, hoge gelijktijdigheid en een grote vraag naar lezen/schrijven - en dat gold ook voor de noodzaak om de kosten en energie op schaal te verlagen. Het team identificeerde een strategische maar onconventionele oplossing: een cache tier op basis van een harde schijf, gebouwd op Seagate-schijven voor bedrijven met een lage capaciteit.

Sommigen gaan ervan uit dat voor deze laag flash nodig is, maar uit de analyse van de werkbelasting bleek dat harde schijven aan de prestatie-eisen voldoen en tegelijkertijd aanzienlijke kosten- en efficiëntievoordelen bieden, vooral voor inferentie- en data staging-werkbelastingen, die doorgaans meer door kosten, stroom en schaal worden beperkt dan door de ruwe latentie.

Deze architectuur laat zien wat er mogelijk is als infrastructuurbeslissingen worden gebaseerd op het werkelijke gedrag van werkbelasting en hoe harde schijven, mits strategisch gebruikt, wereldwijd krachtige, schaalbare en kostenefficiënte activiteiten mogelijk kunnen maken.

Werkbelasting van gegevens begrijpen: Korte uitbarstingen, hoge gelijktijdigheid

Het doel van de werkbelasting was om snelle, betrouwbare toegang te krijgen tot gegevens over gebruikerscommentaren tijdens virale contentbetrokkenheid - een uitdaging die op schaal al snel complex wordt. Maar het volume en de volatiliteit van de vraag maakten het allesbehalve gewoon.

Wanneer een stuk inhoud viraal gaat, stijgt de betrokkenheid onmiddellijk. Duizenden tot miljoenen gebruikers kunnen een enkele thread binnen enkele minuten overspoelen-ik likken, antwoorden, verversen en opnieuw posten. Het systeem moet een snelle vuurstorm van lezen en schrijven van kleine objecten ondersteunen, met pieken en dan net zo snel weer dalen. En hoewel prestaties belangrijk zijn, bieden ze alleen waarde als systeemknelpunten het mogelijk maken om die prestaties te benutten.

De architecten van het platform moesten ondersteuning bieden:

  • Extreem hoge gelijktijdige toegangsvolumes over korte perioden.
  • Zwaar lees- en schrijfverkeer gekoppeld aan gebruikersactiviteiten.
  • Cache met snelle respons voor gebruikerservaring, maar zonder flash met lage latentie die altijd aan staat.

Traditionele hot/cold tiering was niet effectief voor dit soort dynamische patronen. En hoewel flash aan de prestatiebehoeften kon voldoen, maakten de kosten, de slijtage en het energieprofiel deze flash onhoudbaar op deze laag van de architectuur.

Doorvoer vs. latentie: Rethink Data Cache voor cloudprestaties

Er wordt vaak aangenomen dat caching-lagen - vooral voor gebruikersgerichte systemen - op flash gebaseerd moeten zijn om aan de prestatiebehoeften te voldoen. Maar in dit geval bleek uit een gedetailleerde analyse van de werkbelasting dat de doorvoer (de snelheid waarmee gegevens per seconde kunnen worden gelezen of geschreven) en de gelijktijdigheid (het vermogen om veel gelijktijdige verzoeken te verwerken) de beperkende factoren waren en niet de microseconde latentie. Harde schijven zijn met hoge prestaties in deze dimensies, en in architecturen op systeemniveau die zijn ontworpen om deze sterke punten te maximaliseren door middel van parallellisme, cachingstrategieën en slimme tiering, kunnen ze beter presteren dan flash-gebaseerde opstellingen voor dezelfde werkbelasting.

Door gebruik te maken van deze combinatie van sterke punten, was de cloudprovider in staat om:

  • Lever een hoge sequentiële en gelijktijdige Doorvoer.
  • Verwerk grote hoeveelheden gegevens tijdens intense, kortstondige pieken.
  • Werken tegen lagere kosten en stroomverbruik per terabyte - een belangrijke overweging omdat de stroom- en warmtebudgetten van datacenters steeds beperkter worden.

In dergelijke implementaties bieden harde schijven voor bedrijven aanzienlijk lagere aanschafkosten per terabyte - momenteel meer dan 7× minder dan SSD's, volgens de analyse van Seagate van onderzoek door IDC, TRENDFOCUS en Forward Insights. Deze delta kan architecturale keuzes aanzienlijk beïnvloeden, vooral wanneer efficiëntie en duurzaamheid van de Cache een rol spelen.

Cache op harde schijf: De oplossing voor schaalbare, efficiënte gegevenstoegang

De uiteindelijke architectuur implementeerde Seagate harde schijven met een lage capaciteit voor bedrijven als een persistente cachinglaag en plaatste deze tussen een primaire toepassingslaag en een cloudlaag op basis van harde schijven met een hoge capaciteit. De configuratie werd gebouwd met behuizingen die het team al in gebruik had voor andere werkbelastingen, waardoor het systeem efficiënt kon worden hergebruikt.

Zo werkt het:

  • Tijdens piekactiviteiten worden commentaargegevens rechtstreeks naar de harde schijf in de Cache-laag geschreven.
  • Deze op harde schijven gebaseerde datalaag biedt de prestaties met hoge doorvoer en hoge gelijktijdigheid die nodig zijn voor snelle, herhaalbare toegang op wereldwijde schaal tijdens bursts.
  • Zodra de vraag afneemt, worden gegevens in de cache doorgespoeld of gemigreerd naar een diepere opslaglaag die gebouwd is op schijven met een hogere capaciteit (bijv. 24TB of 30TB).

De schijven in het caching-niveau werken meestal met prioriteit voor de buitendiameters van hun schijven voor bruikbare cache-ruimte, waardoor het schrijfgedrag wordt geoptimaliseerd en de effectieve prestaties voor de use case worden gemaximaliseerd.

Kosten, energie en prestaties in balans brengen in de opslaginfrastructuur van de cloud

De grafiek laat zien hoe opmerkingen de cache-module binnenkomen, van en naar het cache-niveau en de cloud-opslag gaan, voordat ze naar het commentaarverwerkingssysteem gaan.

Dit architectuurdiagram illustreert hoe harde schijf gebaseerde Cache, diepe opslag en toepassingsservices samenwerken om virale gegevensuitbarstingen efficiënt en kosteneffectief af te handelen.

De inzet leverde aanzienlijke verbeteringen op in de totale infrastructuurkosten en energie-efficiëntie, terwijl de hoge prestatie-eisen van de werkbelasting werden ondersteund door schijven die zijn ontworpen voor aanhoudende doorvoer, schrijfduur, beschikbaarheid van gegevens onder druk en inzet op vlootschaal.

  • Het gebruik van harde schijven met een lagere capaciteit voor bedrijven leverde de benodigde prestaties tegen aanzienlijk lagere aanschafkosten per terabyte in vergelijking met flashgebaseerde alternatieven.
  • Het opgenomen vermogen per eenheid van doorvoer daalde, omdat de schijven geoptimaliseerd waren voor aanhoudende schrijfseries, niet voor niet-actieve IOPS. Over het algemeen laten vergelijkingen op systeemniveau ook zien dat harde schijven tot 70% minder stroom per terabyte verbruiken dan QLC-flash.
  • Het team kon de bestaande infrastructuur opnieuw gebruiken, waardoor de investering in nieuwe hardware tot een minimum werd beperkt en de implementatietijd werd versneld.
  • Belangrijk is dat de op harde schijven gebaseerde Cache tier nog steeds aan de hit-rate verwachtingen voldoet en deze zelfs bij de meest virale verkeerspieken naadloos overtreft.

De meeste werkbelastingen voor inferentie en gegevensopslag worden meer beperkt door kosten, vermogen en schaal dan door de ruwe latentie, waardoor harde schijven praktisch passen in het juiste architecturale niveau.

Cloudcache schalen: Van pilotsucces naar wereldwijde platformstandaard

Op het moment van publicatie werd deze platformarchitectuur actief ingezet door de klant in de belangrijkste regio's, met voortdurende evaluatie van een bredere uitrol. De eerste indicatoren waren sterk: de prestatiecijfers van Cache bleven stabiel, de gebruikerservaring bleef responsief en de TCO werd verbeterd.

Als de resultaten van de proef blijven aanhouden, kan het platform dit model aanzienlijk uitbreiden, met mogelijke jaarlijkse inzetvolumes van schijven met zes cijfers, als gevolg van de vraag naar meer dan 6EB per jaar en het vertrouwen in harde schijven om prestaties en efficiëntie op vlootschaal te leveren.

Dit is niet slechts een eenmalige optimalisatie, het is een opkomend patroon voor het beter delen van afbeeldingen, microblogs, video en andere inhoud waarbij de gelijktijdigheid en relevantie van de eindgebruiker de infrastructuurvereisten schijven en een betere winstgevendheid van het platform mogelijk maken.

Belangrijkste lessen voor het bouwen van schaalbare, kostenefficiënte cloud Cache-architecturen

Het succes van dit ontwerp berust niet op een enkele doorbraak, maar op drie kernprincipes die weerklank zullen vinden bij andere bouwers van AI-platformen:

  • Ontwerp voor de werkbelasting- niet de aanname - omdat niet elke laag met hoge prestaties flash vereist.
  • Belangrijke dimensies van prestaties- zoals doorvoer, gelijktijdigheid, beschikbaarheid om te schrijven, opnamesnelheid en systeemgebruik - zijn vaak relevanter dan de ruwe latentie.
  • Opslaglagen kunnen worden geoptimaliseerd- zelfs hergebruikt om efficiënter aan moderne eisen te voldoen.

Harde schijven hebben het hier niet "gewonnen" van flash, ze waren gewoon logisch. Zo ziet het eruit om prestaties, kosten en operationele efficiëntie in een echte omgeving op elkaar af te stemmen. In bedrijven en cloudinfrastructuren blijven ze de overgrote meerderheid van werkbelastingen bedienen waarbij doorvoer, efficiëntie en schaal het belangrijkst zijn.

Laatste gedachte: Een cloudinfrastructuur bouwen die de echte werkbelasting weerspiegelt

Om aan de prestatiebehoeften te voldoen, hebben moderne werkbelastingen zowel compute als storage nodig die schaalbaar zijn - vooral omdat het succes van modellen afhangt van onmiddellijke, continue relevantie voor de eindgebruiker.

Nu AI en andere moderne werkbelastingen het ontwerp van infrastructuur in verschillende sectoren blijven bepalen, is de vraag niet meer of u harde schijven of flash moet gebruiken. Het gaat erom hoe u systemen bouwt die het gedrag van echte werkbelasting, echte beperkingen en echte mogelijkheden om te optimaliseren weerspiegelen.

Deze toonaangevende wereldwijde aanbieder van clouddiensten bewees dat harde schijven niet alleen relevant zijn, maar ook centraal staan in de manier waarop moderne architecturen evolueren om te schalen, zodat responsieve toegang tot en beschikbaarheid van gegevens zelfs onder piekbelasting wordt gegarandeerd.

Voetnoten

Geanonimiseerd volgens wederzijdse NDA.

Verwante onderwerpen:

Cloud Data Center