16 mrt., 2026
Een gezamenlijke oplossing van Seagate, NVIDIA en Supermicro biedt meerlaagse opslag voor agentgebaseerde AI op grote schaal
Agentische AI is uitgegroeid tot de volgende operationele grens op het gebied van toegevoegde waarde.
Leidinggevenden hebben behoefte aan AI-systemen die kunnen plannen, handelen en zich in de loop van de tijd kunnen verbeteren — systemen die meerstapsworkflows uitvoeren en cruciale bedrijfsresultaten opleveren.
Maar naarmate de complexiteit en het aantal zoekopdrachten toenemen, worden de beperkingen van het contextbehoud waarop deze agents vertrouwen, steeds moeilijker te negeren.
Agenten kunnen dingen vergeten — niet omdat het model niet capabel is, maar omdat het beschikbare, permanente contextgeheugen beperkt is.
In het AI-ecosysteem heeft dit een eigen naam: de contextmuur.
De contextmuur is het punt waarop een agent geen werkcontext meer heeft en gedwongen wordt om samen te vatten, informatie weg te laten of eerder geraadpleegde feiten herhaaldelijk opnieuw op te halen en te controleren. Dat vertraagt de analyse, verhoogt de kosten en leidt vaak tot een lagere kwaliteit. Het resultaat: tegenstrijdige antwoorden en verloren draad.
De contextmuur wordt al snel een zakelijk probleem. Het wordt weergegeven als:
Het overbruggen van de contextkloof gaat slechts gedeeltelijk over het verbeteren van modellen. Het gaat vooral om de manier waarop u context opslaat en weergeeft.
Om deze uitdaging aan te gaan, hebben Seagate en zijn partners tijdens de NVIDIA GTC een commercieel verkrijgbare, productieklaar AI-opslagoplossing met meerdere lagen geïntroduceerd, die is ontworpen om de context voor AI-workloads uit te breiden.
De oplossing die op de GTC werd gedemonstreerd, combineerde:
Deze architectuur is niet alleen van belang omdat zij de context verbreedt, maar ook omdat zij een nieuw kader biedt voor de manier waarop organisaties moeten denken over de economische aspecten van AI-inferentie. Zodra de taken van de agents in productie worden genomen, spelen geheugengebruik en gegevensverplaatsing een cruciale rol voor de prestaties, de kosten en de betrouwbaarheid — en niet alleen voor de kwaliteit van de modellen.
„Door de JBOF-flashlaag van Supermicro te combineren met de harde-schijflaag van Seagate kunnen de kosten voor inferentie aanzienlijk worden verlaagd, terwijl tegelijkertijd hoge prestaties worden geboden,” aldus Vik Malyala, president en algemeen directeur voor EMEA en senior vicepresident Technologie en AI bij Supermicro. „Dit is met name van belang nu agentische AI op grote schaal wordt toegepast en de inferentiewerkbelasting exponentieel toeneemt.“
Hier is de verschuiving die gemakkelijk over het hoofd wordt gezien: inferentie wordt net zozeer een geheugenprobleem als een rekenprobleem. GPU’s zijn krachtig, maar om productief te zijn, moeten ze over de juiste gegevens beschikken die op het juiste moment, met de juiste snelheid en tegen de juiste kosten worden aangeleverd.
Agenten hebben behoefte aan meer opslagruimte voor contextgegevens. Naast de aanwijzingen moeten zij ook het volgende bijhouden:
Proberen om dat alles in de direct toegankelijke laag (GPU-geheugen of all-flash) te houden, is alsof u erop staat dat een heel bedrijf uitsluitend gebruikmaakt van premium verzending met levering op dezelfde dag: prima voor een paar pakketjes, maar financieel gezien onzinnig op grote schaal.
De succesvolle aanpak is gebaseerd op meerlaagse, permanente opslagarchitecturen.
Een slimme AI-stack maakt een onderscheid tussen het kortetermijngeheugen en het langetermijngeheugen en zet elke laag in voor datgene waar deze het beste in is:
De zakelijke meerwaarde vloeit voort uit een eenvoudig principe: het automatisch toewijzen van gegevens over alle lagen heen. U houdt de GPU’s aan het werk, de kosten onder controle en de context gedetailleerd.
In het verleden was het combineren van prestatieniveaus en capaciteitsniveaus voor AI een rommelige aangelegenheid. Dit vereiste vaak complexe, propriëtaire bestandssystemen, een hoge CPU-belasting en kwetsbare afstemming — vooral naarmate de gegevensvolumes explosief toenamen.
Dat verandert dankzij data processing units (DPU’s).
DPU’s kunnen gegevensverwerking overnemen en versnellen, zodat het systeem geen CPU-cycli van de host hoeft te verbruiken alleen maar om bytes te verplaatsen. Ze maken snelle netwerk- en opslagtoegangspatronen mogelijk en kunnen standaard Linux-gebaseerde diensten uitvoeren voor caching, tiering, uitvalbestendigheid en beveiliging. Kortom, DPU’s maken het mogelijk om AI-opslag met meerdere lagen te implementeren en schaalbaar te maken.
Dat is wat een meerlaags ontwerp op productieschaal haalbaar maakt.
De architectuur van Seagate, Supermicro en NVIDIA brengt de kerncomponenten samen die nodig zijn om AI op grote schaal en op kosteneffectieve wijze uit te breiden: GPU-rekenkracht voor inferentie, harde schijven voor contextgegevens met een grote opslagcapaciteit en een lange levensduur, NVMe-SSD’s voor directe toegang, en DPU’s om gegevensverplaatsing en caching tussen de verschillende lagen te coördineren.
Die combinatie draagt bij aan de bedrijfsresultaten die voor klanten het belangrijkst zijn.
Wat betekent deze aanpak voor klanten?
1. Een beter geheugen bij de agent — en betere resultaten
Agenten hebben toegang tot veel meer historische gegevens dan er in de opslag naast de GPU past. Dat draagt bij aan een langetermijnvisie, een betere personalisatie en minder fouten als gevolg van een ontbrekende context.
2. Lagere schaalkosten
Harde schijven bieden aanzienlijk lagere kosten per TB voor langetermijnopslag. Dat is van belang omdat datasets en de geschiedenis van agents voortdurend groeien.
3. Efficiëntie als de volgende uitdaging op het gebied van optimalisatie
Organisaties houden zowel de prestaties (tokens per seconde) als de efficiëntie bij, met inbegrip van statistieken zoals het stroomverbruik per token en het continue GPU-gebruik. Ontwerpen met meerdere lagen helpen verspilde inspanningen (opnieuw laden, opnieuw verwerken, opnieuw ophalen) te verminderen en zorgen ervoor dat GPU’s productief blijven.
4. Afstemming op de toekomstige ontwikkeling van AI-infrastructuur
Door DPU aangestuurde datavlakken spelen een steeds centralere rol in het ontwerp van moderne AI-systemen. Deze aanpak sluit aan bij die visie: bouwen met het oog op schaalbare gegevenslevering, en niet alleen op ruwe rekenkracht.
Tijdens de GTC werd deze architectuur gedemonstreerd in een werkend systeem — met GPU’s voor inferentie, harde schijven voor omvangrijke, diepgaande context, SSD’s voor directe toegang en DPU’s die zorgen voor een efficiënte gegevensverplaatsing en caching.
AI bevindt zich nog in een vroeg ontwikkelingsstadium. Het zal enorme hoeveelheden gegevens blijven verwerken en genereren. Samen maken Seagate, Supermicro en NVIDIA die toekomst mogelijk met architecturen die duurzamer en efficiënter zijn en zijn ontworpen voor schaalbaarheid.
De organisaties die agents met succes opschalen, zijn de organisaties die context als een strategisch voordeel beschouwen — en een infrastructuur opzetten waarmee die context efficiënt kan worden opgeslagen en aangeboden.
Neem contact op met een expert om te bespreken hoe Seagate uw organisatie kan helpen de agentische contextmuur te overwinnen.
Mohamad El-Batal, Hoofd systeemtechnologie bij Seagate, draagt bij aan het vormgeven van de strategie en innovatieroute van het bedrijf.