16 Mar, 2026

Artificial Intelligence

Bağlam duvarını aşmak

Seagate, NVIDIA ve Supermicro'nun ortak çözümü, büyük ölçekte ajan tabanlı yapay zeka için çok katmanlı depolama sağlıyor.

Temel Avantajlar

  • Çıkarım performansı ve maliyeti giderek artan bir şekilde bellek ve veri hareketine bağlıdır.
  • Ajan tabanlı yapay zekâ, kalıcı ve uzun ömürlü bağlam gerektirir; bu da yüksek kapasiteli sabit disk depolama alanına ihtiyaç duyar.
  • Çok katmanlı mimariler (sabit diskler + GPU belleği + NVMe SSD), maliyetleri kontrolden çıkarmadan bağlamı ölçeklendirmeye yardımcı olur.

Ajan tabanlı yapay zeka, değer yaratmanın bir sonraki operasyonel sınırı olarak ortaya çıktı.

Organizasyon liderlerinin, zaman içinde planlama, harekete geçme ve iyileştirme yapabilen yapay zeka sistemlerine ihtiyaçları var; çok adımlı iş akışlarını yürüten ve kritik iş sonuçları sağlayan ajanlara.

Ancak karmaşıklık ve sorgu hacmi arttıkça, bu aracıların dayandığı bağlamı koruma sınırları göz ardı edilemez hale geliyor.

Ajanlar unutkan hale gelebilirler; bunun nedeni modelin yetersiz olması değil, kullanılabilir, kalıcı bağlam belleğinin sınırlı olmasıdır.

Yapay zeka ekosisteminin buna bir adı var: bağlam duvarı.

Bağlam duvarı, bir ajanın çalışma bağlamının tükendiği ve özetleme yapması, bilgileri atması veya daha önce erişilen gerçekleri tekrar tekrar alıp kontrol etmesi gereken noktadır. Bu durum çıkarım sürecini yavaşlatır, maliyeti artırır ve çoğu zaman kaliteyi düşürür. Sonuç: tutarsız cevaplar ve kopuk bağlantılar.

Bağlam duvarı hızla bir iş sorununa dönüşüyor. Şu şekilde görünür:

  • Daha yüksek işlem maliyetleri (daha fazla yeniden işleme, daha fazla veri alma döngüsü, daha fazla belirteç)
  • Daha yavaş yanıtlar (bağlamın yeniden hesaplanmasından veya yeniden yüklenmesinden kaynaklanan gecikme)
  • Güvenin azalması (seanslar arası tutarsız davranış)
  • Kapasite sınırlamaları (ajanlar uzun vadeli görevleri sürdüremez)

Bağlam duvarını aşmak, modelleri iyileştirmekle yalnızca kısmen ilgilidir. Esas olarak içeriği nasıl sakladığınız ve sunduğunuzla ilgili.

Ajan tabanlı yapay zeka için ortak çözüm

Bu zorluğun üstesinden gelmek için Seagate ve ortakları, NVIDIA GTC'de yapay zeka iş yükleri için bağlamı genişletmek üzere tasarlanmış, ticari olarak temin edilebilen, üretime hazır çok katmanlı bir yapay zeka depolama çözümü tanıttı.

GTC'de sergilenen çözüm şu unsurları bir araya getiriyordu:

  • NVIDIA DGX Spark GPU kümesi hesaplama düğümü, büyük ölçekte çıkarım işlemini yürütüyor.
  • Supermicro JBOF, anlık bağlamı hesaplamaya yakın tutmak için yüksek hızlı ağ bağlantılı NVMe SSD önbellek katmanı olarak kullanılır.
  • Seagate sabit disk JBOD, uzun ömürlü bağlamı uygun fiyatlarla sağlamak için ölçeklenebilir, yüksek kapasiteli veri depolama katmanı sağlar.
  • NVIDIA BlueField-3 veya NVIDIA BlueField-4 DPU'ları, depolama ile verilerin doğrudan GPU belleğine yerleştirilmesi arasında veri hareketini ve önbelleğe almayı hızlandırmak ve yükü hafifletmek için kullanılır.
  • DPU tarafından yönetilen açık kaynaklı bileşenler (NVIDIA Dynamo), sabit sürücüde bulunan veri kümelerini SSD'ler aracılığıyla akıllıca önbelleğe alır.
Web

Bu mimari yalnızca bağlamı genişletmekle kalmıyor, aynı zamanda kuruluşların yapay zeka çıkarım ekonomisi hakkında nasıl düşünmeleri gerektiğini de yeniden şekillendiriyor. Ajan iş yükleri üretime geçtiğinde, bellek ve veri aktarımı, yalnızca model kalitesi değil, performans, maliyet ve güvenilirlik açısından da merkezi bir önem kazanır.

Supermicro'nun JBOF flash depolama katmanı ile Seagate'in sabit disk depolama katmanını birleştirmek, yüksek performans sağlarken çıkarım maliyetlerini önemli ölçüde azaltabilir," dedi Supermicro EMEA Başkanı ve Genel Müdürü ve Teknoloji ve Yapay Zeka Kıdemli Başkan Yardımcısı Vik Malyala. "Bu durum, özellikle ajan tabanlı yapay zekanın yaygınlaşması ve çıkarım iş yüklerinin katlanarak artmasıyla daha da önem kazanıyor."

Hafızayı rekabet avantajına dönüştürün

Gözden kaçması kolay olan değişim şu: çıkarım, hesaplama sorunu olmaktan çok bir bellek sorunu haline geliyor. GPU'lar güçlüdür, ancak verimli olabilmeleri için doğru verilerin doğru zamanda, doğru hızda ve doğru maliyetle iletilmesi gerekir.

Ajanlar daha fazla bağlam depolama alanına ihtiyaç duyuyor. Yönergelerin yanı sıra, şunları da takip etmeleri gerekiyor:

  • Uzun görüşme ve karar geçmişi
  • Politikalar ve prosedürler
  • Ürün ve sorun giderme bilgisi
  • Kayıtlar, biletler ve telemetri

Tüm bunları anında erişim katmanında (GPU belleği veya tamamen flash bellek) tutmaya çalışmak, tüm bir şirketin aynı gün teslimat hizmetiyle çalışmasını istemek gibidir: birkaç paket için harika; ancak büyük ölçekte finansal olarak absürt.

Başarılı yaklaşım, çok katmanlı, kalıcı depolama mimarilerine dayanmaktadır.

Çok katmanlı depolamanın pratik çözüm olmasının nedenleri

Akıllı bir yapay zeka yığını, kısa süreli hafızayı uzun süreli hafızadan ayırır ve her katmanı en iyi yaptığı iş için kullanır:

  • Gerçek zamanlı erişim katmanları (GPU HBM belleği, CPU DRAM, yerel ve ağ NVMe SSD'leri): şu anki bağlamı ele alır — aktif belirteçler, sıcak yerleştirmeler ve sık erişilen veriler
  • Kapasite katmanları (sabit disklerden oluşturulmuştur): uzun vadeli bağlamı tutar — büyük veri kümeleri, uzun ömürlü geçmişler ve genişletilmiş aracı belleği

İş değeri basit bir prensipten kaynaklanıyor: tüm katmanlarda veri yerleşimini otomatikleştirmek. GPU'ları sürekli meşgul tutar, maliyetleri kontrol altında tutar ve bağlamı derinlemesine analiz edersiniz.

DPU'lar veri düzlemini nasıl optimize eder?

Tarihsel olarak, yapay zeka için performans seviyelerini ve kapasite seviyelerini birleştirmek karmaşık bir süreç olmuştur. Bu durum, özellikle veri hacimleri hızla arttıkça, genellikle karmaşık tescilli dosya sistemleri, yüksek işlemci yükü ve hassas ayarlamalar gerektiriyordu.

Veri işleme birimleri (DPU'lar) sayesinde bu durum değişiyor.

DPU'lar veri aktarımını hızlandırabilir ve yükü hafifletebilir, böylece sistem baytları karıştırmak için ana işlemci döngülerini tüketmez. Yüksek hızlı ağ ve depolama erişim modellerini mümkün kılarlar ve önbellekleme, katmanlama, dayanıklılık ve güvenlik için standart Linux tabanlı hizmetleri çalıştırabilirler. Özetle, DPU'lar çok katmanlı yapay zeka depolamasının dağıtılabilir ve ölçeklenebilir olmasını sağlar.

Çok katmanlı bir tasarımı üretim ölçeğinde uygulanabilir kılan da budur.

Çok katmanlı mimarinin sağladığı olanaklar

Seagate, Supermicro ve NVIDIA mimarisi, yapay zeka bağlamını uygun maliyetle ve büyük ölçekte genişletmek için gereken temel bileşenleri bir araya getiriyor: Çıkarım işlemleri için GPU hesaplama gücü, yüksek kapasiteli ve uzun ömürlü bağlam için sabit diskler, anlık erişim için NVMe SSD'ler ve katmanlar arası veri hareketini ve önbellekleme işlemlerini koordine etmek için DPU'lar kullanılıyor.

Bu kombinasyon, müşterilerin en çok önem verdiği iş sonuçlarını destekler.

Daha derin temsilci bağlamı, daha iyi iş değeri anlamına gelir.

Bu yaklaşım müşteriler için ne anlama geliyor?

1. Daha iyi ajan hafızası ve daha iyi sonuçlar
Ajanlar, GPU'ya yakın depolama alanına sığabilecek olandan çok daha fazla geçmiş veriye erişebilirler. Bu, daha uzun vadeli düşünmeyi, daha zengin kişiselleştirmeyi ve unutulan bağlamdan kaynaklanan hataların azalmasını destekler.
2. Ölçeklenebilirlik maliyetinin düşük olması bağlamı
Sabit diskler, uzun vadeli bellek için TB başına maliyeti önemli ölçüde düşürür. Bu önemlidir çünkü veri kümeleri ve ajan geçmişleri sürekli olarak büyüyor.
3. Verimlilik, bir sonraki optimizasyon sınırı olarak
Kuruluşlar, performansı (saniyede token sayısı) ve verimliliği takip eder; bu metrikler arasında token başına güç tüketimi ve sürekli GPU kullanımı gibi ölçütler de bulunur. Çok katmanlı tasarımlar, gereksiz iş yükünü (yeniden yükleme, yeniden işleme, yeniden alma) azaltmaya ve GPU'ların verimliliğini korumaya yardımcı olur.
4. Yapay zeka altyapısının geleceğiyle uyum
DPU tabanlı veri düzlemleri, modern yapay zeka sistem tasarımında giderek daha merkezi bir rol oynamaktadır. Bu yaklaşım, yalnızca ham işlem gücü değil, ölçeklenebilir veri dağıtımı için yapı oluşturmak yönündeki hedefle uyumludur.

Vaatler değil, kanıtlar: GTC tanıtımı ve sonrasında neler olacak?

GTC'de bu mimari, çıkarım işlemleri için GPU'lar, büyük ve derin bağlamlı veriler için sabit diskler, anlık erişim için SSD'ler ve verimli veri aktarımı ve önbellekleme için DPU'lar kullanan çalışan bir sistemde sergilendi.

Yapay zekâ henüz gelişiminin erken aşamasında. Veri tüketimi ve üretimi büyük miktarlarda devam edecektir. Seagate, Supermicro ve NVIDIA birlikte, daha sürdürülebilir, daha verimli ve ölçeklenebilir mimarilerle bu geleceği mümkün kılıyor.

Ajanları başarılı bir şekilde ölçeklendiren kuruluşlar, bağlamı stratejik bir varlık olarak ele alan ve bu bağlamı verimli bir şekilde depolayıp sunabilecek altyapıyı kuran kuruluşlar olacaktır.

Seagate'in kuruluşunuzun ajan tabanlı bağlam duvarını ölçeklendirmesini nasıl sağlayabileceği konusunda bir uzmanla konuşun.

Black-and-white professional headshot of Mohamad El-Batal, Technologist, wearing a suit jacket is shown.
Mohamad El-Batal

Seagate Baş Sistem Teknolojisi Uzmanı Mohamad El-Batal, şirketin stratejisini ve inovasyon yol haritasını şekillendirmeye yardımcı oluyor.