Quando la scala richiede prestazioni: Come un fornitore globale di servizi cloud soddisfa entrambe le esigenze con i dischi rigidi
28 giu, 2025
Poiché i requisiti di multi-tenancy e prestazioni elevate stanno rimodellando l'infrastruttura dei dati, uno dei cambiamenti più importanti che ne derivano si verifica non solo nei cluster di formazione, ma anche nei sistemi che rispondono in tempo reale a miliardi di interazioni degli utenti.
In uno dei più grandi colossi di Internet del mondo1, gli architetti dell'infrastruttura hanno recentemente deciso di reimmaginare un carico di lavoro chiave legato al coinvolgimento degli utenti: l'infrastruttura di memorizzazione nella cache che supporta l'attività di commento sui social network (ad esempio, un livello di dati temporaneo che consente un rapido accesso al contenuto richiesto di frequente). La posta in gioco era alta, con volumi di traffico in aumento, elevata simultaneità e un'intensa attività di lettura/scrittura, così come la necessità di ridurre i costi e il consumo su larga scala. Il team ha identificato una soluzione strategica ma non convenzionale: un livello cache basato su unità disco, realizzato su unità classe Enterprise di Seagate a bassa capacità.
Alcuni ritengono che questo livello richieda la memoria Flash, ma l'analisi del carico di lavoro ha dimostrato che le unità disco soddisfano i requisiti di prestazioni offrendo significativi vantaggi in termini di costi ed efficienza, in particolare per i carichi di lavoro di inferenza e gestione temporanea dei dati, che in genere sono maggiormente vincolati da costi, alimentazione e scalabilità rispetto alla latenza grezza.
Questa architettura illustra quali sono le possibilità quando le decisioni dell'infrastruttura sono basate sul comportamento effettivo del carico di lavoro e come le unità disco, se utilizzate in modo strategico, possono consentire operazioni performanti, scalabili ed economiche su scala globale.
L'obiettivo del carico di lavoro era quello di consentire un accesso rapido e affidabile ai dati dei commenti degli utenti durante il coinvolgimento dei contenuti virali, una sfida che diventa rapidamente complessa su larga scala. Ma il volume e la volatilità della domanda la rendevano tutt'altro che ordinaria.
Quando un contenuto diventa virale, il coinvolgimento aumenta immediatamente. Migliaia o milioni di utenti possono entrare in un singolo thread in pochi minuti, mettendo Mi piace, rispondendo, aggiornando e ripubblicando. Il sistema deve supportare una rapida tempesta di letture e scritture di piccoli oggetti, con picchi bruschi e cadute altrettanto veloci. Sebbene le prestazioni siano importanti, forniscono valore solo quando i colli di bottiglia del sistema consentono di utilizzare tali prestazioni.
Gli architetti della piattaforma dovevano supportare:
La tradizionale suddivisione in livelli caldo/freddo non era efficace per questo tipo di pattern dinamico. Sebbene la tecnologia Flash potesse soddisfare le esigenze di prestazioni, i costi, l'usura e il profilo energetico la rendevano insostenibile a questo livello dell'architettura.
È opinione comune che i livelli di memorizzazione nella cache, soprattutto per i sistemi rivolti agli utenti, debbano essere basati su memoria Flash per soddisfare le esigenze di prestazioni. In questo caso, tuttavia, un'analisi dettagliata del carico di lavoro ha rivelato che la velocità di throughput (la velocità con cui i dati possono essere letti o scritti al secondo) e la simultaneità (la capacità di gestire molte richieste simultanee) erano i fattori limitanti e non la latenza a livello di microsecondi. Le unità disco offrono prestazioni elevate in queste dimensioni e, in architetture a livello di sistema progettate per massimizzare questi punti di forza, attraverso il parallelismo, le strategie di memorizzazione nella cache e il tiering intelligente, possono superare le configurazioni basate su Flash per lo stesso carico di lavoro.
Sfruttando questa combinazione di punti di forza, il fornitore di servizi cloud è stato in grado di:
In queste distribuzioni, le unità disco classe Enterprise offrono costi di acquisto per terabyte notevolmente inferiori, attualmente più di 7 volte inferiori rispetto alle unità SSD, secondo l'analisi di Seagate condotta da IDC, TRENDFOCUS e Forward Insights. Questo delta può influenzare in modo significativo le scelte architetturali, soprattutto quando l'efficienza e la durata della cache fanno parte dell'equazione.
L'architettura finale ha distribuito le unità disco classe Enterprise a bassa capacità di Seagate come livello di caching persistente e le ha posizionate tra un livello applicativo primario e un livello cloud basato su unità disco ad alta capacità. La configurazione è stata realizzata utilizzando chassis già utilizzati dal team per altri carichi di lavoro, consentendo un riutilizzo efficiente del sistema.
Ecco come funziona.
Le unità nel livello di memorizzazione nella cache in genere funzionano dando la priorità ai diametri esterni dei piatti per lo spazio utilizzabile nella cache, ottimizzando il comportamento della scrittura e massimizzando le prestazioni effettive per il caso di utilizzo.
Questo diagramma dell'architettura illustra come la memorizzazione nella cache basata su unità disco, la memorizzazione profonda e i servizi applicativi interagiscono per gestire le esplosioni di dati virali in modo efficiente ed economico.
L'implementazione ha portato a miglioramenti significativi in termini di costi complessivi dell'infrastruttura ed efficienza energetica, mantenendo al contempo le esigenze di prestazioni elevate del carico di lavoro grazie a unità progettate per velocità di throughput sostenute, resistenza in scrittura, disponibilità dei dati sotto pressione e distribuzione su vasta scala.
La maggior parte dei carichi di lavoro di inferenza e gestione temporanea dei dati sono vincolati più da costi, consumi e scalabilità che dalla latenza grezza, rendendo le unità disco una soluzione pratica per il giusto livello architettonico.
Al momento della pubblicazione, questa architettura di piattaforma veniva attivamente implementata dal cliente in aree geografiche chiave, con una valutazione continua di un'implementazione più ampia. I primi indicatori erano forti: le metriche delle prestazioni della cache si sono mantenute stabili, l'esperienza utente è rimasta reattiva e il costo totale di proprietà è stato migliorato.
Se i risultati pilota continuano a essere validi, la piattaforma potrebbe espandere questo modello in modo significativo, con potenziali volumi di distribuzione annuali che raggiungono quantità di unità a sei cifre, riflettendo la domanda di oltre 6 EB all'anno e la fiducia nelle unità disco per offrire prestazioni ed efficienza su vasta scala.
Non si tratta solo di un'ottimizzazione una tantum, ma di un modello emergente per creare una migliore condivisione di immagini, microblog, video e altro contenuto in cui la simultaneità e la pertinenza degli utenti finali unità i requisiti dell'infrastruttura e consentono una migliore redditività della piattaforma.
Il successo di questo progetto non si basa su una singola svolta, ma su tre principi fondamentali che risuoneranno con altri costruttori di piattaforme di IA:
Le unità disco non hanno "vinto" sulla memoria Flash in questo caso, ma hanno semplicemente avuto un senso. Ecco come appare l'allineamento di prestazioni, costi ed efficienza operativa in un ambiente reale. In tutte le infrastrutture aziendali e cloud, le unità disco continuano a servire la maggior parte dei carichi di lavoro dei dati dove velocità di throughput, efficienza e scalabilità sono più importanti.
Per soddisfare le esigenze in termini di prestazioni, i carichi di lavoro moderni hanno bisogno sia di elaborazione che di memorizzazione scalabili, soprattutto perché il successo del modello dipende dall'immediata e continua rilevanza per gli utenti finali.
Poiché l'IA e altri carichi di lavoro moderni continuano a plasmare la progettazione delle infrastrutture in tutti i settori, la domanda non è se utilizzare unità disco o unità Flash. È come creare sistemi che riflettano il comportamento reale del carico di lavoro, i vincoli reali e le opportunità reali di ottimizzazione.
Questo fornitore leader di servizi cloud a livello globale ha dimostrato che le unità disco non sono solo importanti, ma sono fondamentali per il modo in cui le moderne architetture si evolvono con la scalabilità come obiettivo, garantendo un accesso e una disponibilità dei dati reattivi anche nei periodi di picco della domanda.
Reso anonimo in base all'accordo di non divulgazione reciproco.