16 mar, 2026

Artificial Intelligence

Scalare il muro di contesto

Una soluzione congiunta di Seagate, NVIDIA e Supermicro offre uno storage multilivello per l'intelligenza artificiale agentiva su larga scala.

 

Concetti principali

  • Le prestazioni e i costi dell'inferenza sono sempre più influenzati dalla memoria e dal trasferimento dei dati.
  • L'IA agente richiede un contesto persistente e di lunga durata, che necessita di spazio di archiviazione su disco rigido di grande capacità.
  • Le architetture multilivello (dischi rigidi + memoria GPU + SSD NVMe) aiutano a scalare il contesto senza costi incontrollati.

L'intelligenza artificiale agentiva si è affermata come la prossima frontiera operativa del valore.

I leader aziendali necessitano di sistemi di intelligenza artificiale in grado di pianificare, agire e migliorare nel tempo: agenti che eseguano flussi di lavoro complessi e forniscano risultati aziendali cruciali.

Ma con l'aumentare della complessità e del volume delle query, i limiti della capacità di conservazione del contesto su cui si basano questi agenti diventano difficili da ignorare.

Gli agenti possono diventare smemorati, non perché il modello non sia capace, ma perché la sua memoria contestuale utilizzabile e persistente è limitata.

L'ecosistema dell'IA ha un nome per questo: il muro di contesto.

Il muro di contesto è il punto in cui un agente esaurisce il contesto di lavoro e deve riassumere, omettere informazioni o recuperare e ricontrollare ripetutamente i fatti a cui ha avuto accesso in precedenza. Ciò rallenta il processo di inferenza, aumenta i costi e spesso compromette la qualità. Il risultato: risposte incoerenti e fili che si perdono.

La barriera contestuale diventa rapidamente un problema aziendale. Si presenta come:

  • Costi di elaborazione più elevati (più rilavorazioni, più cicli di recupero, più token)
  • Risposte più lente (latenza dovuta al ricalcolo o al ricaricamento del contesto)
  • Minore fiducia (comportamento incoerente nel corso delle sessioni)
  • Limiti di capacità (gli agenti non possono sostenere compiti a lungo termine)

Scalare il muro di contesto significa solo in parte migliorare i modelli. Si tratta principalmente di come si memorizza e si fornisce il contesto.

La soluzione congiunta per l'IA agentiva

Per affrontare questa sfida, Seagate e i suoi partner hanno presentato all'NVIDIA GTC una soluzione di storage AI multilivello, disponibile in commercio e pronta per la produzione, progettata per estendere il contesto dei carichi di lavoro di intelligenza artificiale.

La soluzione presentata al GTC combinava:

  • Nodo di calcolo del cluster GPU NVIDIA DGX Spark che esegue l'inferenza su larga scala
  • Supermicro JBOF come livello di cache SSD NVMe di rete ad alta velocità per mantenere il contesto immediato vicino al calcolo
  • Disco rigido Seagate JBOD per un livello di archiviazione dati scalabile e ad alta capacità per fornire un contesto di lunga durata a un prezzo accessibile
  • DPU NVIDIA BlueField-3 o NVIDIA BlueField-4 per alleggerire e accelerare il trasferimento dei dati e la memorizzazione nella cache tra l'archiviazione e il posizionamento diretto dei dati nella memoria GPU
  • Componenti open-source orchestrati dalla DPU (NVIDIA Dynamo) per memorizzare in modo intelligente nella cache i set di dati residenti sul disco rigido tramite SSD
Web

Questa architettura è importante non solo perché estende il contesto, ma anche perché ridefinisce il modo in cui le organizzazioni dovrebbero pensare all'economia dell'inferenza dell'IA. Una volta che i carichi di lavoro degli agenti passano in produzione, la memoria e il trasferimento dei dati diventano fondamentali per le prestazioni, i costi e l'affidabilità, non solo per la qualità del modello.

"La combinazione della tecnologia flash JBOF di Supermicro e della tecnologia hard disk di Seagate può ridurre drasticamente i costi di inferenza, garantendo al contempo prestazioni elevate", ha affermato Vik Malyala, Presidente e Amministratore Delegato per l'area EMEA e Vicepresidente Senior per la Tecnologia e l'IA di Supermicro. "Questo è particolarmente importante man mano che l'IA agentiva si diffonde e i carichi di lavoro di inferenza crescono esponenzialmente."

Trasforma la memoria in un vantaggio competitivo

Ecco il cambiamento che è facile non notare: l'inferenza sta diventando un problema di memoria tanto quanto un problema di calcolo. Le GPU sono potenti, ma per essere produttive hanno bisogno dei dati giusti, forniti al momento giusto, alla velocità giusta e al costo giusto.

Gli agenti desiderano ardentemente una maggiore capacità di memorizzazione del contesto. Oltre ai promemoria, devono tenere traccia di:

  • Lunga cronologia di conversazioni e decisioni
  • Politiche e procedure
  • Conoscenza del prodotto e risoluzione dei problemi
  • Registri, ticket e telemetria

Cercare di mantenere tutto questo nel livello di accesso immediato (memoria GPU o memoria flash) è come pretendere che un'intera azienda funzioni con spedizioni premium in giornata: ottimo per pochi pacchi, ma finanziariamente assurdo su larga scala.

L'approccio vincente si basa su architetture di archiviazione permanenti a più livelli.

Perché l'archiviazione multilivello è la soluzione pratica

Una configurazione intelligente basata sull'intelligenza artificiale separa la memoria a breve termine dalla memoria a lungo termine e utilizza ciascun livello per ciò che sa fare meglio:

  • Livelli di accesso in tempo reale (memoria HBM della GPU, DRAM della CPU, SSD NVMe locali e di rete): gestiscono il contesto del momento: token attivi, incorporamenti di tendenza e dati a cui si accede frequentemente
  • Livelli di capacità (costruiti da dischi rigidi): contengono il contesto a lungo termine: grandi set di dati, cronologie di lunga durata e memoria estesa dell'agente

Il valore per l'azienda deriva da un principio semplice: automatizzare il posizionamento dei dati su tutti i livelli. In questo modo si mantengono le GPU occupate, i costi sotto controllo e il contesto approfondito.

Come le DPU ottimizzano il piano dati

Storicamente, combinare livelli di prestazioni e livelli di capacità per l'IA è sempre stato complicato. Spesso richiedeva complessi file system proprietari, un elevato carico sulla CPU e una messa a punto delicata, soprattutto con l'aumento esponenziale dei volumi di dati.

Questa situazione sta cambiando grazie alle unità di elaborazione dati (DPU).

Le DPU possono alleggerire il carico e accelerare il trasferimento dei dati, in modo che il sistema non sprechi cicli della CPU host solo per spostare i byte. Consentono modelli di accesso alla rete e allo storage ad alta velocità e possono eseguire servizi standard basati su Linux per la memorizzazione nella cache, la gestione a livelli, la resilienza e la sicurezza. In sintesi, le DPU contribuiscono a rendere implementabile e scalabile l'archiviazione multilivello per l'IA.

È questo che rende un design a più livelli realizzabile su scala produttiva.

Cosa permette l'architettura multilivello

L'architettura di Seagate, Supermicro e NVIDIA riunisce i componenti principali necessari per estendere il contesto dell'IA in modo economicamente vantaggioso e su larga scala: La GPU si occupa dell'inferenza, i dischi rigidi offrono contesto ad alta capacità e di lunga durata, le unità SSD NVMe garantiscono l'accesso immediato e le DPU coordinano il trasferimento dei dati e la memorizzazione nella cache tra i vari livelli.

Questa combinazione favorisce i risultati aziendali che più interessano ai clienti.

Un contesto agenziale più approfondito si traduce in un maggiore valore aziendale.

Che cosa significa questo approccio per i clienti?

1. Una migliore memoria dell'agente memorizzata porta a risultati migliori.
Gli agenti possono accedere a una quantità di dati storici di gran lunga superiore a quella che può essere memorizzata nella memoria adiacente alla GPU. Ciò favorisce un ragionamento a lungo termine, una personalizzazione più ricca e un minor numero di errori causati dalla dimenticanza del contesto.
2. Costi di scala inferiori
Gli hard disk offrono un costo per TB notevolmente inferiore per la memoria a lungo termine. Questo è importante perché i set di dati e le cronologie degli agenti crescono continuamente.
3. L'efficienza come prossima frontiera dell'ottimizzazione
Le organizzazioni tengono traccia delle prestazioni (token al secondo) e dell'efficienza, includendo metriche come la potenza per token e l'utilizzo sostenuto della GPU. Le architetture a più livelli contribuiscono a ridurre il lavoro superfluo (ricaricamento, rielaborazione, recupero) e a mantenere le GPU produttive.
4. Allineamento con la direzione in cui si sta evolvendo l'infrastruttura di intelligenza artificiale.
I piani dati gestiti dalle DPU stanno diventando centrali nella progettazione dei moderni sistemi di intelligenza artificiale. Questo approccio si allinea con tale direzione: progettare per una distribuzione dei dati scalabile, non solo per la pura potenza di calcolo.

Prove, non promesse: La demo di GTC e cosa succederà dopo

Al GTC, questa architettura è stata dimostrata in un sistema funzionante, con GPU per l'inferenza, dischi rigidi per un contesto ampio e approfondito, SSD per l'accesso immediato e DPU che orchestrano un efficiente trasferimento dei dati e la memorizzazione nella cache.

L'intelligenza artificiale è ancora in una fase iniziale di sviluppo. Continuerà a consumare e a generare enormi quantità di dati. Insieme, Seagate, Supermicro e NVIDIA stanno rendendo possibile questo futuro con architetture più sostenibili, più efficienti e progettate per la scalabilità.

Le organizzazioni che riusciranno a implementare con successo gli agenti su larga scala saranno quelle che considereranno il contesto come una risorsa strategica e che costruiranno un'infrastruttura in grado di archiviare e fornire tale contesto in modo efficiente.

Parla con un esperto su come Seagate può consentire alla tua organizzazione di scalare il muro di contesto agentico.

Black-and-white professional headshot of Mohamad El-Batal, Technologist, wearing a suit jacket is shown.
Mohamad El-Batal

Mohamad El-Batal, Chief Systems Technologist di Seagate, contribuisce a definire la strategia e la roadmap dell'innovazione dell'azienda.