16 Mar, 2026
Solusi gabungan dari Seagate, NVIDIA, dan Supermicro menyediakan penyimpanan multi-tingkat untuk AI berbasis agen dalam skala besar
AI yang berorientasi pada agentik telah muncul sebagai batas operasional bernilai berikutnya.
Para pemimpin organisasi membutuhkan sistem AI yang dapat merencanakan, bertindak, dan meningkatkan performa dari waktu ke waktu — agen yang menjalankan alur kerja multi-langkah dan memberikan hasil bisnis yang penting.
Namun seiring meningkatnya kompleksitas dan volume kueri, batasan retensi konteks yang diandalkan oleh agen tersebut menjadi sulit untuk diabaikan.
Agen dapat menjadi pelupa — bukan karena modelnya tidak mampu, tetapi karena memori konteks yang dapat digunakan dan bersifat persisten terbatas.
Ekosistem AI memiliki nama untuk hal ini: hambatan konteks.
Hambatan konteks adalah titik saat agen kehabisan konteks kerja dan harus meringkas, menghilangkan informasi, atau berulang kali mengambil dan memeriksa kembali fakta yang telah diakses sebelumnya. Hal itu memperlambat proses inferensi, meningkatkan biaya, dan seringkali menurunkan kualitas. Hasilnya: jawaban yang tidak konsisten dan alur diskusi yang terputus.
Hambatan konteks dengan cepat berubah menjadi masalah bisnis. Beberapa masalah yang akan muncul adalah:
Mengatasi keterbatasan konteks bukan hanya tentang meningkatkan model. Intinya adalah cara Anda menyimpan dan menyajikan konteks.
Untuk mengatasi tantangan ini, Seagate dan para mitranya memperkenalkan solusi penyimpanan AI multi-tingkat yang siap produksi dan tersedia secara komersial di NVIDIA GTC, yang dirancang untuk memperluas konteks bagi beban kerja AI.
Solusi yang dipresentasikan di GTC menggabungkan:
Arsitektur ini penting bukan hanya karena memperluas konteks, tetapi juga karena mengubah cara organisasi seharusnya berpikir tentang ekonomi inferensi AI. Begitu beban kerja agen masuk ke tahap produksi, memori dan pergerakan data menjadi sangat penting bagi performa, biaya, dan keandalan — bukan hanya kualitas model.
“Menggabungkan tingkatan flash JBOF Supermicro dan tingkatan hard disk Seagate dapat secara signifikan mengurangi biaya inferensi sekaligus memberikan performa tinggi,” ujar Vik Malyala, Direktur Utama dan Direktur Pelaksana, EMEA, dan SVP, Teknologi dan AI, Supermicro. “Hal ini sangat penting mengingat AI berbasis agen semakin banyak digunakan dan beban kerja inferensi meningkat secara eksponensial.”
Pergeseran yang mudah terlewatkan adalah: inferensi kini menjadi masalah memori sekaligus masalah komputasi. GPU memang canggih, tetapi agar produktif, GPU membutuhkan data yang tepat yang dikirimkan pada waktu yang tepat, dengan kecepatan yang tepat, dan biaya yang tepat.
Agen sangat membutuhkan lebih banyak penyimpanan konteks. Selain perintah, agen perlu melacak beberapa hal berikut:
Mencoba menyimpan semua itu di tingkat akses langsung (memori GPU atau all-flash) sama seperti berupaya keras agar seluruh perusahaan menggunakan pengiriman premium di hari yang sama: sesuai untuk pengiriman beberapa paket; tetapi tidak masuk akal secara finansial jika diterapkan dalam skala besar.
Pendekatan yang tepat bergantung pada arsitektur penyimpanan permanen multi-tingkat.
Susunan AI yang cerdas memisahkan memori jangka pendek dari memori jangka panjang dan menggunakan setiap tingkatan untuk hal terbaik:
Nilai bisnisnya berasal dari prinsip sederhana: mengotomatiskan penempatan data di semua tingkatan. Anda menjaga agar GPU tetap sibuk, biaya tetap terkendali, dan konteks tetap mendalam.
Secara historis, menggabungkan tingkatan performa dan tingkatan kapasitas untuk AI sangatlah rumit. Hal ini sering kali membutuhkan sistem file kepemilikan yang kompleks, beban CPU yang tinggi, dan penyetelan yang rapuh—terutama saat volume data membengkak.
Hal itu berubah karena adanya unit pemrosesan data (DPU).
DPU dapat mengurangi beban dan mempercepat pergerakan data, sehingga sistem tidak menghabiskan siklus CPU host hanya untuk memindahkan byte. Perangkat ini memungkinkan pola akses jaringan dan penyimpanan berkecepatan tinggi, serta dapat menjalankan layanan berbasis Linux standar untuk caching, tiering, ketahanan, dan keamanan. Singkatnya, DPU membantu membuat penyimpanan AI multi-tingkat dapat diterapkan dan terukur.
Itulah yang membuat desain multi-tingkat dapat diterapkan dalam skala produksi.
Arsitektur Seagate, Supermicro, dan NVIDIA menyatukan komponen inti yang dibutuhkan untuk memperluas konteks AI secara hemat biaya dan dalam skala besar: Komputasi GPU untuk inferensi, hard disk untuk konteks berkapasitas tinggi dan berumur panjang, SSD NVMe untuk akses langsung, dan DPU untuk mengoordinasikan pergerakan data dan caching di seluruh tingkatan.
Kombinasi tersebut mendorong hasil bisnis yang paling dipedulikan oleh pelanggan.
Apa arti pendekatan ini bagi pelanggan?
1. Memori penyimpanan agen yang lebih baik — dan hasil yang lebih baik
Agen dapat mengakses data historis yang jauh lebih banyak daripada yang dapat ditampung dalam penyimpanan yang berdekatan dengan GPU. Hal itu mendukung penalaran jangka panjang, personalisasi yang lebih kaya, dan mengurangi kegagalan yang disebabkan oleh konteks yang terlupakan.
2. Konteks biaya yang lebih rendah untuk meningkatkan skala
Hard disk menawarkan biaya per TB yang jauh lebih rendah untuk memori jangka panjang. Hal itu penting karena rangkaian data dan riwayat agen terus bertambah.
3. Efisiensi sebagai batas optimasi berikutnya
Organisasi melacak performa (token per detik) serta efisiensi, termasuk metrik seperti daya per token dan pemanfaatan GPU berkelanjutan. Desain multi-tingkat membantu mengurangi pemborosan pekerjaan (memuat ulang, memproses ulang, mengambil ulang) dan menjaga produktivitas GPU.
4. Keselarasan dengan arah perkembangan infrastruktur AI
Bidang data yang digerakkan oleh DPU menjadi pusat perhatian dalam desain sistem AI modern. Pendekatan ini sejalan dengan arah tersebut: membangun sistem pengiriman data yang terukur, bukan hanya komputasi mentah.
Di GTC, arsitektur ini didemonstrasikan dalam sistem yang sedang berjalan — dengan GPU untuk inferensi, hard disk untuk konteks yang masif dan mendalam, SSD untuk akses langsung, dan DPU yang mengatur pergerakan dan caching data yang efisien.
AI masih dalam tahap awal pertumbuhan. AI akan terus mengonsumsi dan menghasilkan volume data yang sangat besar. Bersama-sama, Seagate, Supermicro, dan NVIDIA mewujudkan masa depan tersebut dengan arsitektur yang lebih berkelanjutan, lebih efisien, dan dirancang untuk skala besar.
Organisasi yang berhasil meningkatkan skala agen adalah organisasi yang memperlakukan konteks sebagai aset strategis — dan membangun infrastruktur yang dapat menyimpan dan menyajikan konteks tersebut secara efisien.
Berdiskusi dengan seorang ahli tentang cara Seagate dapat membantu organisasi Anda untuk mengukur hambatan konteks agen.
Kepala Pakar Teknologi Sistem Seagate, Mohamad El-Batal, membantu membentuk strategi dan peta jalan inovasi perusahaan.