Kebutuhan penyimpanan yang terus berkembang untuk infrastruktur AI.
03 Mar, 2025
Solusi penyimpanan AI harus berkembang untuk menangani pertumbuhan data yang sangat besar. Inovasi seperti hard disk aktuator ganda, penyimpanan berbasis NVMe, dan solusi hemat energi membentuk masa depan infrastruktur AI.
Seiring dengan kemajuan AI (kecerdasan buatan), infrastruktur yang mendukungnya harus berkembang untuk menangani peningkatan permintaan penyimpanan dan pemrosesan data. Penyimpanan data berperan penting dalam siklus hidup infrastruktur AI, dan solusi harus mampu menghadapi tantangan AI saat ini dan masa mendatang.
Jumlah data yang dihasilkan setiap hari sangat mengejutkan. Mulai dari kota pintar yang menghasilkan 143 petabyte data per hari, menurut laporan Kaleido Intelligence1, hingga kendaraan otonom yang menghasilkan terabyte (TB) data, kebutuhan akan solusi penyimpanan data yang efisien semakin mendesak dari sebelumnya. Perusahaan mobil otonom mengunggah data dalam jumlah besar ke penyedia layanan cloud, tempat data tersebut diproses dan digunakan untuk meningkatkan model AI. Aliran data yang berkelanjutan ini memerlukan solusi penyimpanan tangguh yang dapat menangani volume dan kecepatan yang diperlukan untuk aplikasi AI.
Meskipun berfokus pada teknologi canggih seperti GPU (unit pemrosesan grafis), hard disk tetap menjadi komponen penting dari infrastruktur AI. Keduanya menyediakan kapasitas penyimpanan yang diperlukan untuk kumpulan data besar yang digunakan dalam pelatihan dan inferensi AI. Saat GPU menangani beban pemrosesan data yang berat, hard disk menyimpan data yang memasok proses ini. Hubungan simbiosis ini memastikan sistem AI dapat beroperasi secara efisien tanpa terhambat oleh batasan penyimpanan.
Salah satu tantangan terbesar dalam infrastruktur AI adalah menyeimbangkan performa dengan pemakaian daya. Seiring pertumbuhan kluster GPU, daya yang diperlukan untuk menjalankannya meningkat secara signifikan. Misalnya, penerapan besar seperti yang dilakukan oleh para pemimpin AI melibatkan ribuan GPU, masing-masing memakai daya dalam jumlah besar. Hal ini menciptakan kebutuhan akan solusi penyimpanan yang tidak hanya menawarkan performa tinggi, tetapi juga beroperasi secara efisien dalam hal penggunaan daya. Sebagai gambaran, satu GPU dapat memakai hingga 700 watt, dan penerapan skala besar dapat melibatkan hingga 100.000 GPU, sehingga menghasilkan kebutuhan daya sebesar 70 megawatt. Komponen ini setara dengan alokasi daya total dari pusat data besar. Oleh karena itu, solusi penyimpanan harus dirancang untuk meminimalkan pemakaian daya sekaligus memaksimalkan performa jika ingin sesuai dengan solusi bersamaan dengan GPU.
Dalam pelatihan AI, titik pemeriksaan sangat penting untuk mencegah kemajuan yang hilang jika terjadi kegagalan sistem. Titik pemeriksaan ini menyimpan status model AI secara berkala (misalnya, setiap beberapa menit), sehingga proses pelatihan dapat dilanjutkan dari status terakhir yang disimpan, bukan memulai dari awal. Ini sangat penting untuk sesi pelatihan jangka panjang yang dapat berlangsung selama berminggu-minggu atau bahkan berbulan-bulan. Penyimpanan titik pemeriksaan yang efisien memerlukan solusi penyimpanan cepat yang dapat secara cepat menyimpan dan mengambil data dalam jumlah besar.
Misalnya, beberapa platform pelatihan besar melakukan penyimpanan titik pemeriksaan setiap menit selama pelatihan, menyimpan data ke SSD (hard disk solid-state), lalu mentransfernya ke hard disk. Proses ini memastikan bahwa meskipun terjadi kegagalan, pelatihan dapat dilanjutkan dengan kehilangan data yang minimal. Ukuran titik pemeriksaan ini bisa sangat besar, dengan beberapa model memerlukan penyimpanan hingga 12 TB per titik pemeriksaan.
Hard disk sangat penting untuk penyimpanan titik pemeriksaan AI karena skalabilitas, efisiensi biaya, efisiensi daya dan keberlanjutan, serta daya tahan.
Ke depannya, permintaan penyimpanan AI diperkirakan akan tumbuh secara eksponensial. Menurut data dari Bloomberg Intelligence, IDC, eMarketer, dan Statista2, pada tahun 2032, pasar penyimpanan AI diproyeksikan mencapai 92 miliar USD. Pertumbuhan ini akan didorong oleh meningkatnya kompleksitas model AI dan perluasan penggunaan AI di berbagai industri. Untuk memenuhi permintaan ini, solusi penyimpanan harus menjadi lebih canggih, menawarkan kapasitas yang lebih tinggi, kecepatan yang lebih tinggi, dan efisiensi daya yang lebih baik.
Beberapa inovasi teknis sedang dieksplorasi untuk memenuhi kebutuhan penyimpanan infrastruktur AI:
Kebutuhan penyimpanan untuk infrastruktur AI berkembang pesat, didorong oleh pertumbuhan data yang eksponensial dan kompleksitas model AI yang semakin meningkat. Saat kami bergerak maju, akan sangat penting untuk mengembangkan solusi penyimpanan yang dapat mengimbangi tuntutan ini, sehingga sistem AI dapat terus maju dan memenuhi janji mereka untuk mengubah industri dan meningkatkan kehidupan.
Praveen Viraraghavan
Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.