16 mar, 2026

Artificial Intelligence

Skalowanie ściany kontekstowej

Wspólne rozwiązanie Seagate, NVIDIA i Supermicro zapewnia wielowarstwową pamięć masową dla sztucznej inteligencji opartej na agentach na dużą skalę

 

Główne wnioski

  • Wydajność i koszty wnioskowania są coraz częściej uzależnione od pamięci i ruchu danych
  • Sztuczna inteligencja oparta na agentach wymaga trwałego, długotrwałego kontekstu, który wymaga dużej pojemności dysku twardego
  • Architektury wielowarstwowe (dyski twarde + pamięć GPU + dysk SSD NVMe) pomagają skalować kontekst bez niekontrolowanych kosztów

Agentyczna sztuczna inteligencja wyłoniła się jako kolejny operacyjny obszar wartości.

Liderzy organizacji potrzebują systemów AI, które potrafią planować, działać i udoskonalać się w czasie — agentów, którzy realizują wieloetapowe przepływy pracy i dostarczają kluczowe wyniki biznesowe.

Jednak w miarę jak rośnie złożoność i liczba zapytań, ograniczenia retencji kontekstu, na których polegają agenci, stają się coraz trudniejsze do zignorowania.

Agenci mogą stać się zapominalscy — nie dlatego, że model nie ma odpowiednich możliwości, ale dlatego, że jego użyteczna, trwała pamięć kontekstowa jest ograniczona.

Ekosystem sztucznej inteligencji ma na to nazwę: ściana kontekstu.

Ściana kontekstu to punkt, w którym agent traci kontekst roboczy i musi podsumować, usunąć informacje lub wielokrotnie odzyskiwać i sprawdzać wcześniej uzyskane fakty. To spowalnia wnioskowanie, zwiększa koszty i często pogarsza jakość. Efekt: niespójne odpowiedzi i utracone wątki.

Ściana kontekstu szybko staje się problemem biznesowym. Wyświetla się jako:

  • Wyższe rachunki za obliczenia (więcej przeróbek, więcej cykli pobierania, więcej tokenów)
  • Wolniejsze odpowiedzi (opóźnienie wynikające z ponownego obliczenia lub ponownego załadowania kontekstu)
  • Niższe zaufanie (niespójne zachowanie w różnych sesjach)
  • Ograniczenia możliwości (agenci nie mogą wykonywać zadań długoterminowych)

Skalowanie ściany kontekstowej to tylko część ulepszania modeli. Chodzi głównie o sposób przechowywania i udostępniania kontekstu.

Wspólne rozwiązanie dla sztucznej inteligencji agentowej

Aby sprostać temu wyzwaniu, firma Seagate i jej partnerzy zaprezentowali na targach NVIDIA GTC dostępne komercyjnie, gotowe do produkcji, wielowarstwowe rozwiązanie pamięci masowej AI, zaprojektowane w celu rozszerzenia kontekstu dla obciążeń AI.

Rozwiązanie zaprezentowane na GTC łączy w sobie:

  • Węzeł obliczeniowy klastra GPU NVIDIA DGX Spark uruchamiający wnioskowanie na dużą skalę
  • Supermicro JBOF jako szybka siećowa pamięć podręczna SSD NVMe, umożliwiająca zachowanie bezpośredniego kontekstu blisko obliczeń
  • JBOD dysków twardych Seagate zapewnia skalowalną warstwę pamięci masowej o dużej pojemności, umożliwiającą niedrogie, długotrwałe przechowywanie kontekstu
  • NVIDIA BlueField-3 lub NVIDIA BlueField-4 DPU do odciążania i przyspieszania przesyłania danych oraz buforowania pomiędzy pamięcią masową a bezpośrednim umieszczaniem danych w pamięci GPU
  • Komponenty typu open source z koordynowaniem DPU (NVIDIA Dynamo) do inteligentnego buforowania zestawów danych znajdujących się na dyskach twardych za pomocą dysków SSD
Web

Taka architektura ma znaczenie nie tylko dlatego, że rozszerza kontekst, ale również dlatego, że zmienia sposób, w jaki organizacje powinny myśleć o ekonomii wnioskowania w sztucznej inteligencji. Po przeniesieniu obciążeń agentów do środowiska produkcyjnego, pamięć i ruch danych stają się kluczowe dla wydajności, kosztów i niezawodności — a nie tylko dla jakości modelu.

„Połączenie pamięci flash JBOF firmy Supermicro z dyskiem twardym firmy Seagate może znacząco obniżyć koszty wnioskowania, zapewniając jednocześnie wysoką wydajność” — powiedział Vik Malyala, prezes i dyrektor zarządzający regionu EMEA oraz starszy wiceprezes ds. technologii i sztucznej inteligencji w firmie Supermicro. „Jest to szczególnie ważne w miarę jak sztuczna inteligencja oparta na agentach staje się coraz powszechniejsza, a obciążenia związane z wnioskowaniem rosną wykładniczo”.

Zmień pamięć w przewagę konkurencyjną

Oto zmiana, którą łatwo przeoczyć: wnioskowanie staje się problemem zarówno pamięciowym, jak i obliczeniowym. Procesory graficzne są wydajne, ale żeby były produktywne, potrzebują właściwych danych dostarczanych we właściwym czasie, z właściwą prędkością i po właściwej cenie.

Agenci potrzebują więcej miejsca na przechowywanie kontekstu. Oprócz monitów muszą śledzić:

  • Długa historia rozmów i decyzji
  • Zasady i procedury
  • Wiedza o produktach i rozwiązywaniu problemów
  • Rejestry, bilety i telemetria

Próba utrzymania tego wszystkiego w warstwie z natychmiastowym dostępem (pamięć GPU lub pamięć all-flash) jest jak wymaganie, aby cała firma działała wyłącznie w oparciu o usługę wysyłki tego samego dnia: świetne rozwiązanie w przypadku kilku paczek, ale absurdalne finansowo, jeśli weźmiemy pod uwagę dużą skalę.

Zwycięskie podejście opiera się na wielowarstwowej architekturze trwałego przechowywania danych.

Dlaczego wielopoziomowe przechowywanie danych jest praktycznym rozwiązaniem

Inteligentny stos sztucznej inteligencji oddziela pamięć krótkotrwałą od długotrwałej i wykorzystuje każdą warstwę do tego, co robi najlepiej:

  • Poziomy dostępu w czasie rzeczywistym (pamięć HBM procesora graficznego, pamięć DRAM procesora, lokalne i sieciowe dyski SSD NVMe): obsługa bieżącego kontekstu — aktywnych tokenów, gorących osadzeniach i często używanych danych
  • Poziomy pojemności (zbudowane z dysków twardych): zawierają kontekst długoterminowy — duże zestawy danych, długotrwałe historie i rozszerzoną pamięć agenta

Wartość biznesowa wynika z prostej zasady: automatyzacji rozmieszczania danych na wszystkich poziomach. Dzięki temu procesory GPU są zawsze zajęte, koszty pozostają pod kontrolą, a kontekst jest dogłębny.

W jaki sposób jednostki DPU optymalizują płaszczyznę danych

Historycznie rzecz biorąc, łączenie poziomów wydajności i poziomów pojemności dla sztucznej inteligencji było nieuporządkowane. Często wymagało to skomplikowanych, zastrzeżonych systemów plików, dużego obciążenia procesora i niepewnej konfiguracji — zwłaszcza gdy wolumen danych gwałtownie wzrastał.

To się zmienia za sprawą jednostek przetwarzania danych (DPU).

Jednostki DPU mogą odciążać i przyspieszać przesyłanie danych, dzięki czemu system nie zużywa cykli procesora hosta na przetasowanie bajtów. Umożliwiają one obsługę szybkich sieci i wzorców dostępu do pamięci masowej, a także mogą uruchamiać standardowe usługi oparte na systemie Linux, zapewniające buforowanie, warstwowanie, odporność i bezpieczeństwo. Krótko mówiąc, jednostki DPU ułatwiają wdrażanie i skalowanie wielowarstwowej pamięci masowej AI.

To właśnie sprawia, że ​​projekt wielowarstwowy sprawdza się w skali produkcyjnej.

Co umożliwia architektura wielowarstwowa

Architektura Seagate, Supermicro i NVIDIA łączy w sobie podstawowe komponenty niezbędne do ekonomicznego rozszerzania kontekstu sztucznej inteligencji na dużą skalę: Procesory graficzne do wnioskowania, dyski twarde do obsługi kontekstu o dużej pojemności i długim czasie życia, dyski SSD NVMe do natychmiastowego dostępu oraz jednostki przetwarzania danych (DPU) do koordynowania ruchu danych i buforowania w różnych warstwach.

Takie połączenie przyczynia się do osiągnięcia wyników biznesowych, na których klienci najbardziej zależy.

Głębszy kontekst agenta oznacza lepszą wartość biznesową

Co takie podejście oznacza dla klientów?

1. Lepsza pamięć agenta — i lepsze wyniki
Agenci mają dostęp do znacznie większej ilości danych historycznych niż te, które mieszczą się w pamięci masowej sąsiadującej z procesorem GPU. Wspiera to rozumowanie długoterminowe, lepszą personalizację i mniej błędów spowodowanych zapomnianym kontekstem.
2. Niższy koszt skalowania kontekstu
Dyski twarde zapewniają znacznie niższy koszt na TB w przypadku pamięci długoterminowej. Ma to znaczenie, ponieważ zbiory danych i historie agentów stale rosną.
3. Wydajność jako kolejny obszar optymalizacji
Organizacje śledzą wydajność (liczba tokenów na sekundę) oraz efektywność, w tym takie wskaźniki, jak moc na token i stałe wykorzystanie procesora GPU. Konstrukcje wielowarstwowe pomagają ograniczyć marnotrawstwo pracy (ponowne ładowanie, ponowne przetwarzanie, ponowne pobieranie) i utrzymać produktywność procesorów graficznych.
4. Zgodność z kierunkiem rozwoju infrastruktury AI
Płaszczyzny danych sterowane przez DPU stają się kluczowe w projektowaniu nowoczesnych systemów AI. To podejście jest zgodne z tym kierunkiem: budowaniem skalowalnego dostarczania danych, a nie tylko surowych obliczeń.

Dowód, nie obietnice: Demo GTC i co dalej

Na GTC zaprezentowano tę architekturę w działającym systemie — z procesorami GPU do wnioskowania, dyskami twardymi do obszernego, głębokiego kontekstu, dyskami SSD do natychmiastowego dostępu i jednostkami DPU odpowiedzialnymi za wydajne przesyłanie danych i buforowanie.

Sztuczna inteligencja jest wciąż na wczesnym etapie rozwoju. Nadal będzie zużywać i generować ogromne ilości danych. Seagate, Supermicro i NVIDIA wspólnie umożliwiają realizację tej przyszłości dzięki architekturze, która jest bardziej zrównoważona, wydajniejsza i skalowalna.

Organizacje, które skutecznie skalują agentów, to te, które traktują kontekst jako zasób strategiczny i budują infrastrukturę umożliwiającą wydajne przechowywanie i obsługę tego kontekstu.

Porozmawiaj z ekspertem o tym, w jaki sposób Seagate może pomóc Twojej organizacji w skalowaniu ściany kontekstu agenta.

Black-and-white professional headshot of Mohamad El-Batal, Technologist, wearing a suit jacket is shown.
Mohamad El-Batal

Mohamad El-Batal, dyrektor ds. technologii systemowych Seagate, pomaga kształtować strategię firmy i plan innowacji.