Jason Feist

Perspective

21 mag, 2026

Cloud

Come i carichi di lavoro basati su cloud e intelligenza artificiale hanno ridefinito l'archiviazione primaria

Jason Feist

Perspective

come i carichi di lavoro cloud e IA hanno ridefinito lo storage primario/come i carichi di lavoro cloud e IA hanno ridefinito lo storage primario.

Qui a Seagate, io e i miei team di ingegneri ci incontriamo regolarmente con i maggiori sviluppatori di infrastrutture cloud e di intelligenza artificiale al mondo.

Oltre a fornire loro exabyte di dischi rigidi ad alta capacità, lavoriamo fianco a fianco per aiutarli a definire le loro architetture di archiviazione.

Grazie a queste collaborazioni, ho avuto modo di osservare da vicino come vengono prese le decisioni relative allo storage su larga scala. Il filo conduttore è chiaro: economia, orchestrazione del software e capacità hardware devono essere allineate per massimizzare le prestazioni, l'efficienza e il valore dei dati.

Tale allineamento è diventato ancora più importante man mano che i carichi di lavoro di intelligenza artificiale continuano ad aumentare in termini di dimensioni dei dataset, frequenza di accesso, finestre di contesto, parallelismo, tempo di conservazione e richieste imposte ai sistemi di archiviazione condivisi.

Questi cambiamenti di scala hanno modificato radicalmente il significato di "archiviazione primaria".

Storicamente, per memoria primaria si intendevano sistemi a blocchi o file system strettamente interconnessi, posizionati in prossimità delle unità di elaborazione. Negli ambienti cloud e di intelligenza artificiale, tuttavia, lo storage primario è sempre più definito da architetture software-defined e globalmente distribuite che trattano lo storage a oggetti come un sistema di registrazione persistente che conserva e gestisce enormi volumi di dati per diversi carichi di lavoro.

Per comprendere meglio come si è sviluppata questa ridefinizione, analizziamo i principi di progettazione che hanno originariamente plasmato lo storage aziendale.

Come la scalabilità ha cambiato il paradigma dell'archiviazione

Per decenni, l'ecosistema ha operato secondo uno standard comune: il Portable Operating System Interface (POSIX). Concepito in un'epoca di infrastrutture più localizzate, POSIX ha fornito agli sviluppatori un modello prevedibile per interagire con i dati.

Ha posto l'accento sulla forte coerenza di lettura dopo scrittura, sul blocco sincrono dei file e sulle strutture di directory gerarchiche. Per una singola macchina o un cluster localizzato, si è dimostrato estremamente efficace e rimane fondamentale per molti ambienti aziendali e applicativi odierni.

Con l'avvento del modello cloud, tuttavia, i compromessi da considerare sono cambiati. I sistemi su scala cloud sono stati creati per una scalabilità, un modello di distribuzione e una struttura dei costi fondamentalmente diversi da quelli per cui erano stati originariamente progettati i sistemi POSIX-first.

In un ambiente distribuito, le implementazioni in stile POSIX possono richiedere una complessa orchestrazione tra i nodi per preservare la semantica delle directory, il blocco dei file e gli aggiornamenti in loco.

Le piattaforme cloud necessitavano di una scalabilità enorme, espandendosi infine fino a supportare decine o centinaia di exabyte, e in questo contesto, il sovraccarico di coordinamento derivante da architetture strettamente interconnesse iniziò a introdurre latenza e a porre limiti pratici alla crescita.

Nei moderni carichi di lavoro di intelligenza artificiale che richiedono set di dati ancora più ampi, checkpointing, elaborazione di token, inferenza e pipeline di dati altamente parallele, tali pressioni si sono solo intensificate.

In tutto il settore, da Google Cloud Storage (GCS) e Colossus a Microsoft Azure Blob, Amazon S3 e Tectonic di Meta, le piattaforme cloud hanno adottato architetture software-defined progettate specificamente per dati distribuiti a livello globale e carichi di lavoro su scala hyperscale, perfezionandole nel tempo man mano che la scalabilità e i requisiti si evolvevano.

In questo nuovo paradigma, il software si assume maggiori responsabilità per l'orchestrazione, la resilienza e il flusso dei dati, in modo che i supporti di memorizzazione sottostanti possano essere utilizzati nel modo più efficiente possibile.

I dischi rigidi sono fondamentali per lo storage su larga scala.

Nelle architetture cloud come quelle a cui ho fatto riferimento, i dischi rigidi sono fondamentali per l'archiviazione di dati su larga scala.

Ciò riflette le dinamiche economiche e fisiche intrinseche della capacità di archiviazione e della registrazione ad alta densità. I moderni dischi rigidi ad alta capacità incorporano tecnologie come Shingled Magnetic Recording (SMR) e Heat-Assisted Magnetic Recording (HAMR) per continuare ad aumentare la densità areale e rendere possibile l'archiviazione su scala exabyte.

A queste dimensioni, interi gruppi di dischi rigidi fungono da sistema di registrazione, offrendo durabilità, efficienza in termini di costi e densità volumetrica che le tecnologie di archiviazione alternative semplicemente non possono eguagliare.

C'è un motivo per cui l'87% degli exabyte dei grandi data center sono memorizzati su dischi rigidi1!

Man mano che le infrastrutture cloud continuano ad espandersi e i carichi di lavoro di intelligenza artificiale consumano, generano, conservano e riutilizzano volumi sempre maggiori di dati, questi vantaggi diventano ancora più rilevanti.

Ma queste potenzialità possono essere pienamente sfruttate solo se l'architettura software viene progettata in modo da allinearsi ai punti di forza dei dischi ad alta capacità.

I modelli di accesso POSIX tradizionali, soprattutto all'interno di modelli di filesystem distribuiti strettamente interconnessi che privilegiano aggiornamenti frammentati, casuali e in loco, non sempre si adattano bene a tali vantaggi su scala estrema.

Le moderne piattaforme cloud software-defined hanno affrontato questo problema progettando le proprie architetture di storage attorno a dischi rigidi, consentendo così di dare priorità ai flussi di dati sequenziali ad alta velocità, supportando al contempo un'economia operativa scalabile.

Nel caso di Amazon S3, un servizio che memorizza 500 trilioni di oggetti e gestisce 200 milioni di richieste al secondo,un recente keynote di AWS re:Invent2 ha sottolineato che il segreto delle prestazioni dello storage cloud è scrivere software che ottimizza le capacità del disco rigido, descritto nella presentazione come una "meraviglia ingegneristica".

Anziché costringere l'unità ad adattarsi ad astrazioni software progettate per un'epoca diversa, le moderne architetture cloud sono concepite per sfruttare al meglio i punti di forza dei moderni dischi rigidi ad alta densità.

Come le architetture cloud migliorano l'efficienza dei dischi rigidi.

Questa progettazione ingegneristica ha assunto diverse forme, ma nelle principali piattaforme cloud riflette generalmente quattro principi architetturali. Insieme, dimostrano come l'archiviazione cloud sia diventata sempre più definita dal software per quanto riguarda la gestione del flusso di dati, dei metadati, della resilienza e del comportamento di acquisizione.

1. L'immutabilità degli oggetti favorisce i flussi di dati sequenziali.

Servizi come GCS e Amazon S3 sono progettati per supportare l'immutabilità degli oggetti e gli aggiornamenti versionati. Una volta che i dati sono stati scritti in un archivio di oggetti, gli aggiornamenti vengono in genere gestiti scrivendo una nuova versione dell'oggetto anziché modificando quella esistente.

Riducendo la necessità di scritture binarie casuali in loco, le architetture su scala cloud spostano una parte maggiore del carico di lavoro del disco verso flussi di dati sequenziali di grandi dimensioni. Ciò si allinea meglio con il modo in cui le unità ad alta capacità offrono velocità di trasferimento ed efficienza su larga scala. Il vantaggio diventa ancora più importante in presenza di carichi di lavoro di intelligenza artificiale, dove il checkpointing, lo spostamento di set di dati e le pipeline parallele possono generare una pressione costante sui sistemi di archiviazione condivisi.

2. I metadati vengono sempre più gestiti da servizi di controllo separati o distribuiti.

In un ambiente POSIX tradizionale, i sistemi di archiviazione gestiscono spesso i metadati dei file e i dati di accesso ai file in modo strettamente interconnesso. Le piattaforme cloud hyperscale hanno cambiato questa situazione separando i servizi di metadati dallo storage di capacità, spostando gran parte del monitoraggio e del coordinamento in livelli di controllo più veloci e scalabili, anziché lasciare tale onere ai dischi stessi.

Colossus di Google Cloud sposta gran parte di questo lavoro in servizi residenti in memoria, mentre Tectonic di Meta separa i metadati, all'interno di un modello di filesystem distribuito, in microservizi stateless in esecuzione su un archivio chiave-valore scalabile orizzontalmente. Il risultato è una minore complessità strutturale dei dischi rigidi sottostanti e maggiori opportunità per questi ultimi di offrire una capacità densa ed efficiente su larga scala.

3. La codifica di cancellazione rafforza la resilienza distribuita

Un terzo principio è l'utilizzo della codifica di cancellazione e dell'ampia distribuzione dei dati per rendere i sistemi di archiviazione su larga scala più resilienti ed efficienti.

Le architetture cloud riducono tale sensibilità attraverso la codifica di cancellazione e l'ampia distribuzione dei dati. Distribuendo gli oggetti su più dischi, questi sistemi possono isolare i punti critici localizzati, continuare a fornire dati anche in presenza di brevi picchi di latenza e ricostruire i dati secondo necessità. Ciò rende il livello di archiviazione più resiliente e contribuisce a mantenere la velocità di trasmissione in presenza di carichi di lavoro misti di cloud e intelligenza artificiale.

4. Percorso dati multilivello

Un quarto principio riguarda il modo in cui i dati vengono preparati prima di raggiungere i supporti di memorizzazione.

Per colmare il divario tra il traffico imprevedibile delle applicazioni e l'ambiente strutturato che i dischi rigidi ad alta densità gestiscono al meglio, le architetture moderne utilizzano un percorso dati multilivello, che incorpora memoria flash o RAM per bufferizzare l'acquisizione dei dati e ottimizzare il loro posizionamento.

Un livello flash assorbe i tassi di arrivo variabili dal traffico API e dalle scritture delle applicazioni. Prepara e organizza i dati in arrivo prima che vengano trasferiti sui supporti di memorizzazione, consentendo ai processi in background di scriverli sugli array di dischi rigidi in passaggi lunghi e sequenziali.

Nei carichi di lavoro di intelligenza artificiale, dove l'acquisizione, il checkpoint e lo spostamento dei dataset possono essere particolarmente intensi, questo ruolo di buffering diventa ancora più importante perché contribuisce a preservare sia l'acquisizione a bassa latenza sia l'utilizzo efficiente del disco rigido.

come i carichi di lavoro cloud e IA hanno ridefinito il grafico dello storage primario

FIG 1. Un confronto tra il software di storage tradizionale POSIX e quello nativo per il cloud, al fine di massimizzare i vantaggi di un'architettura di storage incentrata su dischi rigidi.

Un nuovo modello per l'archiviazione primaria

Nel loro insieme, questi cambiamenti architettonici hanno ridefinito il modo in cui viene definito lo storage primario. Storicamente, con "memoria primaria" ci si riferiva spesso a sistemi a blocchi o file system costosi e ad alta disponibilità, strettamente collegati alle risorse di calcolo. L'archiviazione a oggetti veniva più comunemente considerata una destinazione di livello inferiore per dati di archiviazione, backup o secondari.

Oggi, molte architetture cloud-native definiscono lo storage primario in modo più ampio: elaborazione stateless abbinata a un archivio di oggetti globale. I data lake creati su piattaforme come S3, Azure e GCS fungono sempre più da sistema di registrazione per analisi su larga scala, applicazioni cloud e flussi di lavoro di intelligenza artificiale.

In questo modello, la memoria primaria è sempre più definita via software, con servizi a oggetti, livelli di metadati, buffering flash e dischi rigidi ad alta capacità che lavorano insieme come un sistema coordinato.

Le istanze di calcolo sono spesso trattate come più elastiche e stateless, prelevando i dati dal livello degli oggetti, elaborandoli e scrivendo i risultati nello stesso ambiente condiviso.

La convergenza tra archiviazione a oggetti e semantica dei file

Negli ultimi dieci anni, con la crescente centralità dell'archiviazione a oggetti nelle architetture cloud e, più recentemente, nei flussi di lavoro di intelligenza artificiale, è emersa un'altra tendenza importante: i file system paralleli ad alte prestazioni.

Sistemi come Lustre, Weka e VAST sono progettati per massimizzare le prestazioni di carichi di lavoro strettamente interconnessi, spesso esponendo interfacce conformi a POSIX per supportare il checkpointing, il coordinamento e l'accesso ai dati ad alta velocità.

Al contempo, le piattaforme di object storage hanno continuato a evolversi, ottimizzandosi per la scalabilità globale e migliorando le prestazioni per supportare un insieme sempre più ampio di carichi di lavoro basati sull'intelligenza artificiale e ad alta intensità di dati.

Negli ambienti cloud e di intelligenza artificiale su larga scala, questi approcci stanno convergendo. I file system ad alte prestazioni spesso si sovrappongono o si integrano con i sistemi di storage a oggetti, combinando le prestazioni del working set attivo con la scalabilità e la convenienza economica dello storage a oggetti come sistema di registrazione.

Questa convergenza riflette un più ampio cambiamento architetturale: anziché scegliere tra file e oggetto, i sistemi moderni li combinano. Mantiene la praticità delle cartelle, degli spazi dei nomi e dei comportamenti familiari dei file senza sacrificare i vantaggi di scalabilità dell'archiviazione a oggetti.

Implicazioni per i costruttori di infrastrutture cloud e di intelligenza artificiale

Nel loro insieme, questi cambiamenti conducono a una conclusione più ampia: le architetture cloud e di intelligenza artificiale richiedono compromessi software e di sistema diversi da quelli che i modelli POSIX-first erano stati originariamente progettati per ottimizzare.

Questi compromessi hanno accresciuto l'importanza di progettare software in grado di ottimizzare l'utilizzo delle unità disco rigido su cui si basano i sistemi. In tal senso, i carichi di lavoro basati su cloud e intelligenza artificiale non si sono limitati a modificare l'architettura di archiviazione, ma hanno ridefinito l'archiviazione primaria stessa.

Per chi si occupa di infrastrutture, il messaggio è chiaro: progettare per i sistemi moderni significa superare il presupposto che la memoria di archiviazione primaria debba necessariamente corrispondere in modo univoco alla struttura delle directory del sistema operativo locale. Significa scegliere software e modelli di accesso che siano in linea con le realtà economiche, fisiche e di carico di lavoro dell'intelligenza artificiale su larga scala.

Le organizzazioni che sapranno gestire correttamente questo aspetto saranno in una posizione migliore per implementare strategie di intelligenza artificiale in modo efficiente, con un maggiore utilizzo delle GPU, una migliore economia dell'inferenza e un minor numero di colli di bottiglia nelle prestazioni.

Scopri di più sulle innovazioni relative agli hard disk che alimentano lo storage primario per i più grandi sviluppatori di infrastrutture di intelligenza artificiale e cloud al mondo.

Origini

1. IDC Datasphere e IDC Storagesphere

2. AWS re:Invent 2025, Discorso di apertura di Andy Warfield: S3 memorizza oltre 500 trilioni di oggetti, gestisce 200 milioni di richieste al secondo ed elabora oltre 1 quadrilione di richieste all'anno.

 

Black and white headshot photo of Jason Feist, Senior Vice President, Cloud Marketing, is shown.
Jason Feist

Vicepresidente senior, Cloud Marketing