Penyimpanan data adalah oksigen bagi pembelajaran mesin dan AI.
02 Apr, 2025
Kecerdasan buatan (AI) dan pembelajaran mesin (ML) telah memicu terobosan transformatif, mulai dari memprediksi struktur protein hingga memungkinkan penerjemahan bahasa secara real-time. Inti dari inovasi ini terletak pada kebutuhan tanpa batas terhadap data berkualitas tinggi. Model AI berkembang pesat pada kumpulan data yang besar, tetapi tanpa penyimpanan data yang andal dan hemat biaya, model ini—dan wawasan yang dihasilkannya—akan gagal mencapai potensinya.
Sama seperti oksigen yang mengisi pikiran manusia, penyimpanan data mendorong pengembangan AI. Kemampuan untuk menyimpan, mengakses, dan memproses data secara efisien menentukan seberapa efektif pelatihan dan penyempurnaan model AI. Namun, seiring dengan meningkatnya permintaan akan solusi berbasis AI, meningkat pula tantangan dalam mengelola siklus hidup data AI—mulai dari pengumpulan, penyimpanan, hingga pemrosesan—sekaligus menjaga biaya dan kompleksitas tetap terkendali.
Ilmu data telah berkembang dari spreadsheet dan analitik sederhana menjadi wawasan berbasis ML yang canggih. Saat ini, Departemen Tenaga Kerja AS melaporkan bahwa ada lebih dari 200.000 pekerjaan ilmu data, dengan proyeksi pertumbuhan 36% selama dekade berikutnya. Pakar domain di berbagai industri menggabungkan alat AI ke dalam alur kerja mereka, bahkan tanpa pelatihan ilmu data formal, menggunakan platform tanpa kode yang memungkinkan mereka membangun model dan menganalisis data lebih cepat dari sebelumnya.
Namun, data mentah tidak berguna dengan sendirinya. Sebelum dapat dimasukkan ke dalam model AI, data harus terstruktur, dibersihkan, dan diberi label—proses yang sering disebut pemetaan data. Alat sumber terbuka seperti Pandas membantu mengubah kumpulan data besar menjadi format terstruktur yang dapat digunakan oleh model AI. Namun, proses ini memerlukan penyimpanan data lokal yang cepat, efisien, dan untuk menghindari kemacetan yang memperlambat pengembangan model.
Banyaknya data pelatihan AI menghadirkan tantangan logistik yang signifikan. Menyimpan dan mengelola kumpulan data besar tidak hanya memerhatikan tentang kapasitas, tetapi juga biaya, kepatuhan, dan aksesibilitas.
Beberapa tantangan terbesar dalam manajemen data AI meliputi:
Pendekatan penyimpanan terpusat yang tradisional terkendala oleh sumber data yang tersebar secara geografis. Semakin banyak praktisi AI yang beralih ke solusi penyimpanan tepi jaringan lokal yang menawarkan kontrol yang lebih besar, biaya yang lebih murah, dan latensi yang lebih rendah.
Alih-alih mentransfer kumpulan data besar ke server cloud terpusat, organisasi dapat memproses dan menyimpan data AI lebih dekat ke tempat data tersebut dihasilkan. Pendekatan ini—sering disebut komputasi tepi jaringan—meminimalkan biaya perpindahan data sekaligus meningkatkan performa.
Salah satu solusi hemat biaya adalah sistem NAS hibrid kecil yang menyediakan penyimpanan lokal berperforma tinggi untuk beban kerja AI. Tidak seperti NAS tradisional, sistem ini mengintegrasikan alat AI kemas seperti Jupyter Notebooks, yang memungkinkan pakar domain dan pengembang AI untuk berkolaborasi secara langsung pada sistem penyimpanan itu sendiri. Dengan menghilangkan kebutuhan akan transfer data yang konstan, solusi NAS ini mengurangi biaya operasional sekaligus mempercepat pengembangan AI.
Memproses data AI di tepi jaringan juga memberi organisasi kontrol yang lebih besar atas kumpulan data mereka. Mempertahankan kedaulatan atas data pelatihan AI memastikan kepatuhan terhadap peraturan industri dan mengurangi risiko yang terkait dengan penyimpanan pihak ketiga. Pendekatan ini membuat alur kerja AI lebih efisien dengan menjaga data tetap dekat dengan tempat pengumpulan dan analisisnya.
Komputasi tepi jaringan menawarkan banyak keuntungan untuk pengembangan AI:
Untuk mempelajari kelayakan menjalankan beban kerja AI pada penyimpanan lokal, kami membangun kluster NAS tiga node dan mengukur performa penyimpanannya.
Pertama, kami mengukur performa node tunggal untuk menetapkan garis dasar untuk throughput. Sistem mencapai 200 MB/dtk per tautan 2.5GE untuk transfer data yang besar.
Selanjutnya, kami menganalisis cara replikasi multi-node memengaruhi performa. Meskipun replikasi data meningkatkan lalu lintas jaringan, peningkatan ini memiliki dampak yang minimum pada performa baca—keunggulan utama untuk beban kerja yang memerlukan konsistensi data di beberapa node.
Pengujian performa jaringan mengungkapkan bahwa menambahkan tautan 2.5GE kedua hanya memberikan manfaat kecil pada penulisan, sementara jaringan 10GE meningkatkan performa dalam kasus tertentu.
Untuk menyimulasikan alur kerja AI, kami menguji tugas pembelajaran mesin dunia nyata menggunakan sistem NAS. Kami melatih model klasifikasi kapal menggunakan kumpulan data berisi 500 gambar berlabel, menjalankan ekstraksi fitur, dan pelatihan model secara lokal.
Setelah menyimpan gambar dalam keranjang penyimpanan objek dengan label metadata, kami menggunakan PyTorch Img2Vec untuk mengekstrak fitur dari setiap gambar, lalu melatih pengklasifikasi hutan acak. Model yang dihasilkan mencapai 78% akurasi dalam waktu kurang dari satu menit.
Pengamatan utama dari tes ini meliputi:
Eksperimen ini menunjukkan bahwa penyimpanan NAS yang dilokalkan dapat berfungsi sebagai hub data AI yang hemat biaya, sehingga mengurangi ketergantungan pada layanan cloud sekaligus meningkatkan aksesibilitas dan performa.
Gagasan akhir: Penyimpanan AI harus berkembang.
Masa depan AI bergantung pada penyimpanan data yang efisien, hemat biaya, dan terukur. Karena volume data terus berkembang, organisasi harus memikirkan kembali cara mereka menyimpan dan mengelola kumpulan data AI.
Solusi NAS yang dilokalkan memberikan alternatif praktis untuk penyimpanan cloud yang mahal, sehingga memungkinkan tim AI:
Sama seperti oksigen yang menopang kehidupan, penyimpanan data mendukung inovasi AI. Dengan menjadikan penyimpanan siap-AI lebih mudah diakses, hemat biaya, dan berperforma tinggi, organisasi dapat mempercepat terobosan berbasis AI mereka.
Mengapa data adalah aset yang menentukan ekonomi AI