Autore Praveen Viraraghavan

03 mar, 2025

IA

Le esigenze di memorizzazione in continua evoluzione per l'infrastruttura IA.

PraveenViraraghavan

Le soluzioni di memorizzazione con IA devono evolversi per gestire l'enorme crescita dei dati. Innovazioni come le unità con doppio attuatore, la memorizzazione basata su NVMe e le soluzioni a basso consumo energetico stanno plasmando il futuro dell'infrastruttura IA.

Sommario

Man mano che l'intelligenza artificiale (IA) continua a progredire, l'infrastruttura che la supporta deve evolversi per gestire le crescenti richieste di memorizzazione ed elaborazione dei dati. La memorizzazione dei dati svolge un ruolo critico nel ciclo di vita dell'infrastruttura IA e le soluzioni devono essere in grado di resistere alle sfide attuali e future dell'IA.

La quantità di dati generati ogni giorno è sbalorditiva. Dalle smart city che producono 143 petabyte di dati al giorno, secondo un report di Kaleido Intelligence 1 ai veicoli autonomi che generano terabyte (TB) di dati, la necessità di soluzioni efficienti per la memorizzazione dei dati è più pressante che mai. Le aziende produttrici di auto autonome caricano grandi quantità di dati sui fornitori di servizi cloud, dove vengono elaborati e utilizzati per migliorare i modelli di IA. Questo flusso continuo di dati richiede soluzioni di memorizzazione robuste in grado di gestire sia il volume che la velocità richiesti dalle applicazioni di IA.

Confronto tra prestazioni e potenza.

Nonostante l'attenzione si concentri su tecnologie all'avanguardia come le unità di elaborazione grafica (GPU), le unità disco rimangono un componente critico dell'infrastruttura di IA. Forniscono la capacità di memorizzazione necessaria per gli enormi set di dati utilizzati per l'inferenza e l'addestramento dell'IA. Mentre le GPU gestiscono il lavoro pesante dell'elaborazione dei dati, le unità disco memorizzano i dati che alimentano questi processi. Questa relazione simbiotica garantisce che i sistemi di IA possano funzionare in modo efficiente senza essere ostacolati dalle limitazioni della memorizzazione.

Una delle maggiori sfide nell'infrastruttura IA è il bilanciamento delle prestazioni con il consumo energetico. Man mano che i cluster di GPU crescono, la potenza richiesta per eseguirli aumenta in modo significativo. Ad esempio, le distribuzioni di grandi dimensioni come quelle dei leader di IA coinvolgono migliaia di GPU, ognuna delle quali consuma una notevole quantità di energia. Ciò crea la necessità di soluzioni di memorizzazione che non solo offrano prestazioni elevate, ma funzionino anche in modo efficiente in termini di consumo energetico. In altre parole, una singola GPU può consumare fino a 700 watt e le distribuzioni su larga scala possono coinvolgere fino a 100.000 GPU, con un consumo energetico di 70 megawatt. Questo componente equivale all'allocazione di alimentazione totale di un grande data center. Pertanto, le soluzioni di memorizzazione devono essere progettate in modo da ridurre al minimo il consumo energetico e allo stesso tempo massimizzare le prestazioni se si desidera adattarsi alla soluzione insieme alle GPU.

L'importanza dei punti di controllo.

Nell'addestramento dell'IA,i punti di controllo sono fondamentali per evitare di rallentare l'avanzamento in caso di guasti del sistema. I punti di controllo salvano lo stato del modello di IA a intervalli regolari (ad esempio, ogni pochi minuti), consentendo al processo di addestramento di riprendere dall'ultimo stato salvato anziché ricominciare da capo. Ciò è particolarmente importante per le sessioni di addestramento di lunga durata che possono durare settimane o addirittura mesi. Un punto di controllo efficiente richiede soluzioni di memorizzazione veloci in grado di salvare e recuperare rapidamente grandi quantità di dati.

Ad esempio, alcune piattaforme di addestramento di grandi dimensioni eseguono dei punti di controllo ogni minuto durante l'addestramento, salvando i dati su unità con memoria a stato solido (SSD) e quindi trasferendoli su unità disco. Questo processo garantisce che, anche in caso di guasto, l'addestramento possa riprendere con una perdita minima di dati. Le dimensioni di questi punti di controllo possono essere notevoli, con alcuni modelli che richiedono fino a 12 TB di spazio di memorizzazione per punto di controllo.

Le unità disco sono essenziali per la creazione dei punti di controllo dell'IA perché offrono scalabilità, efficienza dei costi, efficienza energetica, sostenibilità e longevità.

Tendenze e innovazioni future.

Guardando al futuro, si prevede che la domanda di sistemi di memorizzazione con IA crescerà in modo esponenziale. Secondo i dati di Bloomberg Intelligence, IDC, eMarketer e Statista 2, entro il 2032 il mercato dei sistemi di memorizzazione con IA raggiungerà i 92 miliardi di dollari. Questa crescita sarà guidata dalla crescente complessità dei modelli di IA e dall'espansione dell'uso dell'IA in vari settori. Per soddisfare queste esigenze, le soluzioni di memorizzazione dovranno diventare più sofisticate, offrendo capacità maggiori, velocità più elevate e una migliore efficienza energetica.

Sono allo studio diverse innovazioni tecniche per soddisfare le esigenze di memorizzazione dell'infrastruttura IA:

  • Crescita della densità d'area. La continua crescita del numero di unità disco, grazie all'innovazione delle testine e dei supporti dei dispositivi, consente di espandere la capacità a parità di formato. Le unità disco abilitate per Mozaic di Seagate sono le unità disco più efficienti al mondo, in grado di ridurre i costi di acquisto e operativi e aumentare la produttività. Grazie alla maggiore densità d'area delle unità di Mozaic, i clienti possono memorizzare più dati senza aumentare il consumo di spazio, energia o risorse naturali. Mozaic 3+ aiuta i clienti a raggiungere i propri obiettivi di sostenibilità, una priorità assoluta per i data center su larga scala, offrendo una riduzione del 55% delle emissioni di carbonio per terabyte3.
  • Unità con doppio attuatore. Queste unità offrono prestazioni migliori perché utilizzano due attuatori per leggere e scrivere i dati contemporaneamente. Ciò consente di migliorare significativamente la velocità di throughput dei dati e di semplificare la gestione dei grandi volumi di dati generati dalle applicazioni di IA.
  • Unità disco basate su NVMe. La tecnologia NVMe (Non-Volatile Memory express) offre un accesso ai dati più veloce rispetto alle interfacce SATA (Serial Advanced Technology Attachment) o SAS (Serial Attached SCSI [Small Computer System Interface]) tradizionali. Adottando unità disco basate su tecnologia NVMe, i data center possono ottenere prestazioni più elevate e una latenza inferiore, un fattore fondamentale per i carichi di lavoro dell'IA.
  • Interconnessioni ottiche. Con l'aumentare della velocità di trasferimento dei dati, le tradizionali interconnessioni in rame possono diventare un collo di bottiglia. Le interconnessioni ottiche offrono una maggiore larghezza di banda e una latenza inferiore, consentendo uno spostamento più rapido dei dati tra i dispositivi di memorizzazione e le unità di elaborazione.
  • Soluzioni di memorizzazione efficienti in termini energetici, Con il crescente fabbisogno energetico dell'infrastruttura IA, le soluzioni di memorizzazione devono essere più efficienti dal punto di vista energetico. Ciò include lo sviluppo di unità che consumano meno energia mantenendo prestazioni elevate e l'esplorazione di nuove tecnologie di raffreddamento per gestire il calore generato da distribuzioni su larga scala.

Evoluzione delle esigenze di memorizzazione dell'IA.

Le esigenze di memorizzazione per l'infrastruttura di IA si stanno evolvendo rapidamente, guidate dalla crescita esponenziale dei dati e dalla crescente complessità dei modelli di IA. Man mano che andiamo avanti, sarà essenziale sviluppare soluzioni di memorizzazione in grado di tenere il passo con queste esigenze, in modo che i sistemi di IA possano continuare a progredire e mantenere la promessa di trasformare i settori e migliorare le vite.

 


 

  1.  Cellular IoT Connectivity Series: Smart Cities Opportunities & Forecasts, Kaleido Intelligence, 2023, https://kaleidointelligence.com/smart-cities-2027/
  2. Generative AI to Become a $1.3 Trillion Market by 2032, Research Finds, Bloomberg Intelligence, 2023, https://www.bloomberg.com/company/press/generative-ai-to-become-a-1-3-trillion-market-by-2032-research-finds/
  3. Unità Mozaic 3+ da 30 TB rispetto a un'unità PMR convenzionale da 16 TB. Il carbonio incorporato include le emissioni generate durante l'estrazione delle materie prime, la produzione e l'assemblaggio dei prodotti e tutto il trasporto dei materiali dall'estrazione alla produzione e dalla produzione ai clienti.
Praveen Viraraghavan bio photo

Praveen Viraraghavan

Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.