BLOG

Memorizzazione ed elaborazione: esigenze in tandem per i flussi di lavoro di IA.

Le unità disco e le unità SSD si uniscono a GPU, CPU, HBM e DRAM come componenti vitali nelle applicazioni di IA.

Sommario

storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image

L'adozione di applicazioni di intelligenza artificiale (IA) continua a crescere in tutto il mondo. Allo stesso tempo, le funzionalità delle soluzioni IT che supportano l'IA stanno accelerando rapidamente. Seguono innovazioni senza precedenti.

Attualmente, il lato del processore (logico) riceve la maggior parte dell'attenzione dei leader aziendali e degli investitori per il suo contributo all'IA. I processori sono sicuramente essenziali per l'IA e l'elaborazione ad alte prestazioni. Ma il successo dell'IA non dipende solo dall'elaborazione e dalle prestazioni elevate. Altrettanto importante è il fatto che le applicazioni di IA si basano anche sulla memorizzazione dei dati, che fornisce un archivio iniziale di dati grezzi, consente la creazione di punti di controllo che crea fiducia nei flussi di lavoro di IA e memorizza le inferenze e i risultati delle analisi dell'IA;

Qualsiasi implementazione di IA di successo richiede una sinergia di risorse di elaborazione e memorizzazione dei dati;

Man mano che i data center di grandi dimensioni scalano le proprie capacità in termini di IA, diventa più chiaro come le applicazioni di IA non si basino esclusivamente sull'elaborazione in un'architettura di data center IA. Il cluster di elaborazione comprende processori con prestazioni elevate, memoria ad alta larghezza di banda (HBM), memoria dinamica ad accesso casuale (DRAM) e unità con memoria a stato solido (SSD) locali con prestazioni ottimali, creando il potente motore per l'addestramento dell'IA. I componenti del cluster di elaborazione sono locali, in genere uno accanto all'altro, perché qualsiasi distanza aggiuntiva potrebbe introdurre problemi di latenza e di prestazioni.

Le applicazioni di IA dipendono anche dal cluster di memorizzazione, che include unità disco di rete ad alta capacità e unità SSD di rete (con una capacità maggiore rispetto alle unità SSD locali più efficienti nel cluster di elaborazione). Il cluster di memorizzazione è collegato in rete (distribuito), perché le prestazioni di memorizzazione su vasta scala creano meno preoccupazioni. La distanza dei componenti è un fattore minore nell'equazione della latenza totale, rispetto ai cluster di elaborazione, dove la latenza prevista può essere nell'ordine dei nanosecondi. I dati fluiscono infine al cluster di memorizzazione, costituito principalmente da unità disco con enormi capacità per la conservazione a lungo termine.

Questo articolo esamina il modo in cui elaborazione e memorizzazione funzionano insieme in più fasi di un tipico flusso di lavoro di IA.

Prestazioni e scalabilità per l'IA.

Alcune tecnologie nei flussi di lavoro di IA sono più performanti e altre più scalabili, ma ciascuna è parte integrante del processo. La memoria sul dispositivo offre prestazioni elevate ed è generalmente composta da HBM o DRAM collegate a processori: unità di elaborazione grafica (GPU) e unità di elaborazione centrale (CPU) o unità di elaborazione dati (DPU). Le unità DPU sono motori funzionali scaricati, collegati alle CPU, che aiutano con attività specifiche. Alcune architetture le utilizzano, altre no. L'elevata velocità di throughput della memoria consente l'acquisizione efficiente dei dati e l'addestramento dei modelli dell'IA.

La bassa latenza e la capacità sufficiente delle unità SSD consentono un'inferenza rapida e un accesso frequente al contenuto memorizzato. Nell'architettura dei data center IA, le unità SSD locali ad alte prestazioni sono incluse nel cluster di elaborazione, vicino ai processori e alla memoria. Le unità SSD locali in genere utilizzano celle di memoria a tre livelli e offrono anche una durata elevata, ma di solito sono più costose delle unità SSD di rete e non hanno la stessa capacità elevata;

Le unità SSD di rete, con una capacità di memorizzazione dei dati superiore rispetto alle unità SSD locali, sono incluse nel cluster di memorizzazione, con altre responsabilità specifiche durante il flusso di lavoro di un'applicazione di IA. Le loro prestazioni non corrispondono alla velocità delle unità SSD locali. Le unità SSD di rete sono relativamente meno durevoli in termini di scritture dell'unità al giorno, ma compensano con la maggiore capacità.

Le unità disco di rete, anch'esse parte del cluster di memorizzazione dell'architettura dei data center IA, sono i dispositivi IT più scalabili ed efficienti nei flussi di lavoro do IA. Questi dispositivi hanno velocità di accesso relativamente modeste, ma una capacità molto elevata, situazione ideale per le istanze che non richiedono un accesso rapido e frequente.

Il ciclo infinito dell'IA.

I flussi di lavoro di IA operano in un ciclo infinito di consumo e creazione, che richiede non solo processori e memoria che abilitano l'elaborazione, ma anche componenti di memorizzazione. I passaggi correlati di un flusso di lavoro di IA includono i dati di origine, l'addestramento dei modelli, la creazione di contenuto, la memorizzazione del contenuto, la conservazione e il riutilizzo dei dati. Diamo un'occhiata ai ruoli che l'elaborazione e la memorizzazione giocano in queste fasi.

Passaggio 1: dati di origine.

L'approvvigionamento dei dati prevede la definizione, il rilevamento e la preparazione dei dati per l'analisi dell'IA.

Elaborazione: le GPU svolgono un ruolo fondamentale nella fase di approvvigionamento dei dati, promuovendo la pre-elaborazione e la trasformazione dei dati ad alta velocità. Queste unità sono complementari alle CPU, poiché eseguono calcoli ripetitivi in parallelo mentre l'applicazione principale viene eseguita sulla CPU. La CPU funge da unità principale, gestendo più attività di elaborazione generiche, mentre la GPU esegue un insieme più ristretto di attività più specializzate.

Memorizzazione: nella fase di approvvigionamento dei dati, sia le unità SSD che le unità disco di rete vengono utilizzate per memorizzare le enormi quantità di dati necessari per creare qualcosa di nuovo. Le unità SSD di rete fungono da livello di dati immediatamente accessibile, offrendo prestazioni superiori. Le unità disco di rete offrono una capacità ampia, densa e scalabile, oltre a garantire la conservazione e la protezione dei dati a lungo termine.

Passaggio 2: addestramento dei modelli.

Nella fase di addestramento del modello, il modello impara dai dati memorizzati. L'addestramento è un processo di tentativi ed errori ove un modello converge ed è salvaguardato da punti di controllo. L'addestramento richiede un accesso ai dati ad alta velocità.

le GPU sono fondamentali durante la fase di addestramento del modello, in cui le funzionalità di elaborazione parallela delle unità consentono di gestire gli enormi carichi di elaborazione associati all'apprendimento approfondito. L'addestramento dell'IA prevede migliaia di moltiplicazioni di matrici, che le GPU gestiscono contemporaneamente, accelerando il processo e rendendo possibile l'addestramento di modelli complessi con miliardi di parametri. Le CPU funzionano insieme alle GPU, orchestrando il flusso di dati tra la memoria e le risorse di elaborazione. Le CPU gestiscono attività come la preparazione dei batch e la gestione delle code, in modo che i dati giusti vengano immessi nelle GPU al momento giusto. Gestiscono inoltre l'ottimizzazione degli iperparametri del modello, eseguendo calcoli che potrebbero non richiedere la potenza di elaborazione parallela delle GPU.

Nell'addestramento dei modelli, HBM e DRAM sono essenziali per un rapido accesso ai dati, mantenendo i set di dati attivi in prossimità dei processori. La memoria HBM, che è in genere integrata nelle GPU, aumenta in modo significativo la velocità di elaborazione dei dati mantenendo i dati utilizzati con maggiore frequenza accessibili alle GPU durante l'addestramento.

Le unità SSD locali fungono da memorizzazione ad accesso rapido per i set di dati utilizzati in questa fase. Memorizzano i risultati intermedi dell'addestramento e consentono un rapido recupero di grandi set di dati. Sono particolarmente utili per l'addestramento di modelli che richiedono un accesso rapido a grandi quantità di dati, come i modelli di riconoscimento delle immagini che coinvolgono milioni di immagini.

le unità disco consentono di memorizzare in modo economico le enormi quantità di dati necessari per addestrare i modelli di IA. Oltre a fornire la capacità scalabile richiesta, le unità disco aiutano a mantenere l'integrità dei dati, memorizzando e proteggendo le versioni replicate del contenuto creato. Le unità disco sono convenienti rispetto ad altre opzioni di memorizzazione, forniscono una soluzione di memorizzazione affidabile a lungo termine e conservano e gestiscono in modo efficiente set di dati di grandi dimensioni.

Tra le altre cose, le unità disco di rete e le unità SSD di rete memorizzano i punti di controllo per proteggere e perfezionare l'addestramento dei modelli. I punti di controllo sono le istantanee salvate dello stato di un modello in momenti specifici durante l'addestramento, l'ottimizzazione e l'adattamento. Queste istantanee possono essere utilizzate in seguito per dimostrare la proprietà intellettuale o mostrare come l'algoritmo è arrivato alle sue conclusioni. Quando si utilizzano le unità SSD per creare i punti di controllo, i punti vengono scritti a intervalli brevi, ad esempio ogni minuto, a causa della bassa latenza di accesso. Tuttavia, i dati vengono generalmente sovrascritti dopo un breve periodo di tempo (ossia dopo cinque minuti) a causa della loro capacità ridotta rispetto alle unità disco. Al contrario, i punti di controllo delle unità disco salvati vengono generalmente scritti a intervalli più lenti, ad esempio ogni cinque minuti, ma possono essere mantenuti quasi perennemente a causa della capacità scalabile dell'unità disco.

Passaggio 3: creazione del contenuto.

La fase di creazione del contenuto prevede il processo di inferenza che utilizza il modello addestrato per creare gli output.

Elaborazione: durante la creazione del contenuto, le GPU eseguono le attività di inferenza dell'IA, applicando il modello addestrato ai nuovi input di dati. Questo parallelismo consente alle GPU di eseguire più inferenze contemporaneamente, rendendole indispensabili per applicazioni in tempo reale come la generazione di video o i sistemi di IA per conversazione. Mentre le GPU dominano le attività di elaborazione durante la creazione di contenuto, le CPU sono fondamentali per la gestione della logica di controllo e per l'esecuzione di qualsiasi operazione che richieda un'elaborazione seriale. Ciò include la generazione di script, la gestione degli input degli utenti e l'esecuzione di attività in background con priorità più bassa che non richiedono l'elevata velocità di throughput di una GPU.

La fase di creazione del contenuto utilizza HBM e DRAM. In questo caso la memoria svolge un ruolo cruciale nell'accesso ai dati in tempo reale, poiché memorizza temporaneamente i risultati delle inferenze dell'IA e li reinserisce nel modello per un ulteriore perfezionamento. La memoria DRAM ad alta capacità consente di creare più iterazioni di contenuto senza rallentare il flusso di lavoro, soprattutto in applicazioni come la generazione di video o l'elaborazione di immagini in tempo reale.

Durante la creazione di contenuto, le unità SSD locali forniscono le elevate velocità di lettura/scrittura necessarie per l'elaborazione in tempo reale. Sia che l'IA stia generando nuove immagini, video o testo, le unità SSD consentono al sistema di gestire operazioni di I/O frequenti e ad alta velocità senza colli di bottiglia, garantendo una produzione rapida del contenuto.

Memorizzazione: i dispositivi che consentono la memorizzazione primaria della fase di creazione sono HBM, DRAM e le unità SSD locali.

Passaggio 4: memorizzazione del contenuto.

Nella fase di memorizzazione di contenuto i dati appena creati vengono salvati per il continuo perfezionamento, la garanzia di qualità e la conformità.

Elaborazione:
sebbene non siano direttamente coinvolte nella memorizzazione a lungo termine, le GPU e le CPU possono aiutare a comprimere o crittografare i dati mentre vengono preparati per la memorizzazione. Grazie alla loro capacità di elaborare rapidamente grandi volumi di dati, il contenuto è pronto per l'archiviazione senza ritardi. La memoria viene utilizzata come cache temporanea prima che i dati vengano spostati nella memorizzazione a lungo termine. La memoria DRAM velocizza le operazioni di scrittura, salvando il contenuto generato dall'IA in modo rapido ed efficiente. Ciò è particolarmente importante nelle applicazioni di IA in tempo reale, dove i ritardi nella memorizzazione dei dati potrebbero creare colli di bottiglia.

la fase di memorizzazione dei contenuti dipende sia dalle unità SSD che dalle unità disco di rete salvano i dati per un continuo perfezionamento, la garanzia di qualità e la conformità. Le unità SSD di rete offrono un livello di dati corrispondente alla velocità e vengono utilizzate per la memorizzazione a breve termine e ad alta velocità di contenuto generato dall'IA. A causa della capacità inferiore rispetto alle unità disco, le unità SSD in genere consentono di memorizzare il contenuto a cui si accede frequentemente o il contenuto che deve essere immediatamente disponibile per la modifica e il perfezionamento.

Il processo di iterazione dà origine a nuovi dati convalidati che devono essere memorizzati. Questi dati vengono salvati per un continuo miglioramento, garanzia di qualità e conformità. Le unità disco memorizzano e proteggono le versioni replicate del contenuto creato e forniscono la capacità critica per memorizzare il contenuto generato durante i processi di IA. Sono particolarmente adatte a questo scopo perché offrono un'elevata capacità di memorizzazione a un costo relativamente basso rispetto ad altre opzioni di memorizzazione come le unità SSD.

Passaggio 5: conservazione dei dati.

Nella fase di conservazione dei dati i set di dati replicati vengono conservati in più aree geografiche e ambienti. Le risorse di memorizzazione vengono in genere utilizzate in questa fase.

Memorizzazione: i dati memorizzati sono la spina dorsale di un’IA affidabile, consentendo ai data scientist di garantire che i modelli si comportino come previsto. Le unità SSD di rete vengono utilizzate come strato di ottimizzazione per collegare le unità disco al livello SSD locale e aiutare i dati a muoversi all'interno dell'ecosistema.

Le unità disco sono i principali componenti che rendono possibile memorizzare e proteggere i dati nel lungo termine. Consentono di mantenere i risultati della creazione di contenuto con IA, memorizzando in modo sicuro il contenuto generato, in modo che sia possibile accedervi quando necessario. Offrono inoltre la scalabilità necessaria per gestire in modo efficiente l'aumento dei volumi di dati.

Passaggio 6: riutilizzo dei dati.

Infine, nel file riutilizzo dei dati i dati di origine, di training e di inferenza vengono applicati all'iterazione successiva del flusso di lavoro.

Elaborazione: le GPU svolgono un ruolo significativo nella fase di riutilizzo dei dati, rieseguendo i modelli sui set di dati archiviati per nuove inferenze o ulteriore addestramento, consentendo al ciclo dei dati di IA di ricominciare. La capacità di eseguire calcoli paralleli su set di dati di grandi dimensioni consente ai sistemi di IA di migliorare continuamente la precisione dei modelli con un investimento di tempo minimo. Le CPU eseguono query e recuperano i dati memorizzati per il riutilizzo. Filtrano ed elaborano in modo efficiente i dati storici, inserendo le parti pertinenti nei modelli di addestramento. Nei sistemi di IA su larga scala, le CPU spesso eseguono queste attività gestendo le interazioni tra i sistemi di memorizzazione e i cluster di elaborazione.

Quando i dati storici vengono recuperati per essere riutilizzati in un'altra iterazione dell'analisi del modello di IA, la memoria garantisce un accesso rapido a set di dati di grandi dimensioni. La HBM consente il caricamento rapido dei set di dati nella memoria GPU, dove possono essere immediatamente utilizzati per la riqualificazione o l'inferenza in tempo reale.

Memorizzazione: i risultati del contenuto vengono inviati al modello, migliorandone la precisione e consentendo di creare nuovi modelli. Le unità disco e le unità SSD di rete supportano la creazione di dati di IA distribuiti geograficamente. I set di dati e i risultati grezzi diventano l'origine di nuovi flussi di lavoro. Le unità SSD accelerano il recupero dei dati memorizzati in precedenza. L'accesso a bassa latenza favorisce una rapida reintegrazione di questi dati nei flussi di lavoro di IA, riducendo i tempi di attesa e aumentando l'efficienza complessiva del sistema. Le unità disco soddisfano i requisiti per la memorizzazione con capacità di massa della fase di riutilizzo dei dati di IA, consentendo di implementare la successiva iterazione del modello a un costo ragionevole.

La memorizzazione è la spina dorsale dell'IA.

Come abbiamo visto, i flussi di lavoro di IA richiedono processori ad alte prestazioni e soluzioni di memorizzazione dei dati. La memoria sul dispositivo e le unità SSD hanno il loro posto nelle applicazioni di IA grazie alle prestazioni elevate, che consentono un'inferenza veloce. Ma ci piace pensare alle unità disco come alla spina dorsale dell'IA. Sono particolarmente critiche data la loro scalabilità economica, un requisito indispensabile in molti flussi di lavoro di IA.

Le unità disco di Seagate dotate di tecnologia Mozaic 3+™, la nostra esclusiva implementazione della tecnologia HAMR (Heat-Assisted Magnetic Recording) sono una scelta potente per le applicazioni di IA grazie alla densità d'area, all'efficienza e ai vantaggi di ottimizzazione dello spazio. Offrono una densità d'area senza precedenti di oltre 3 TB per piatto, attualmente disponibili con capacità a partire da 30 TB e destinate ai clienti in grande scala. Seagate sta già testando la piattaforma Mozaic raggiungendo oltre 4 TB e oltre 5 TB per piatto.

Rispetto alle unità disco con registrazione magnetica perpendicolare (PMR) dell'attuale generazione, le unità disco Mozaic 3+ richiedono un consumo energetico quattro volte inferiore ed emettono emissioni di anidride carbonica per terabyte dieci volte inferiori.

Nei carichi di lavoro di IA, elaborazione e memorizzazione funzionano in tandem. L'elaborazione e la memoria incentrate sull'elaborazione, nonché le unità SSD ad alte prestazioni, sono essenziali nelle applicazioni di IA. Lo stesso vale per le soluzioni di memorizzazione dei dati con capacità di massa scalabili, con le unità disco di Seagate in testa.