Tom Prohofsky

Perspective

02 Apr, 2025

AI

Penyimpanan data adalah oksigen bagi pembelajaran mesin dan AI.

Tom Prohofsky

Perspective

data-storage-is-the-oxygen-images-hero-1440x1080

Kecerdasan buatan (AI) dan pembelajaran mesin (ML) telah memicu terobosan transformatif, mulai dari memprediksi struktur protein hingga memungkinkan penerjemahan bahasa secara real-time. Inti dari inovasi ini terletak pada kebutuhan tanpa batas terhadap data berkualitas tinggi. Model AI berkembang pesat pada kumpulan data yang besar, tetapi tanpa penyimpanan data yang andal dan hemat biaya, model ini—dan wawasan yang dihasilkannya—akan gagal mencapai potensinya.

Sama seperti oksigen yang mengisi pikiran manusia, penyimpanan data mendorong pengembangan AI. Kemampuan untuk menyimpan, mengakses, dan memproses data secara efisien menentukan seberapa efektif pelatihan dan penyempurnaan model AI. Namun, seiring dengan meningkatnya permintaan akan solusi berbasis AI, meningkat pula tantangan dalam mengelola siklus hidup data AI—mulai dari pengumpulan, penyimpanan, hingga pemrosesan—sekaligus menjaga biaya dan kompleksitas tetap terkendali.

Meningkatnya permintaan untuk data siap-AI.

Ilmu data telah berkembang dari spreadsheet dan analitik sederhana menjadi wawasan berbasis ML yang canggih. Saat ini, Departemen Tenaga Kerja AS melaporkan bahwa ada lebih dari 200.000 pekerjaan ilmu data, dengan proyeksi pertumbuhan 36% selama dekade berikutnya. Pakar domain di berbagai industri menggabungkan alat AI ke dalam alur kerja mereka, bahkan tanpa pelatihan ilmu data formal, menggunakan platform tanpa kode yang memungkinkan mereka membangun model dan menganalisis data lebih cepat dari sebelumnya.

Namun, data mentah tidak berguna dengan sendirinya. Sebelum dapat dimasukkan ke dalam model AI, data harus terstruktur, dibersihkan, dan diberi label—proses yang sering disebut pemetaan data. Alat sumber terbuka seperti Pandas membantu mengubah kumpulan data besar menjadi format terstruktur yang dapat digunakan oleh model AI. Namun, proses ini memerlukan penyimpanan data lokal yang cepat, efisien, dan untuk menghindari kemacetan yang memperlambat pengembangan model.

Tantangan manajemen data AI.

Banyaknya data pelatihan AI menghadirkan tantangan logistik yang signifikan. Menyimpan dan mengelola kumpulan data besar tidak hanya memerhatikan tentang kapasitas, tetapi juga biaya, kepatuhan, dan aksesibilitas.

Beberapa tantangan terbesar dalam manajemen data AI meliputi:

  • Kedaulatan dan keamanan data. Organisasi harus mematuhi peraturan yang mengatur kekayaan intelektual, privasi, dan kontrol yurisdiksi.
  • Biaya penyimpanan cloud. Kumpulan data AI yang disimpan di cloud dapat berkisar lima hingga 10 kali lebih mahal daripada menggunakan solusi NAS lokal.
  • Kemacetan pergerakan data. Mentransfer kumpulan data besar di jaringan area yang luas biasanya lambat dan mahal, sehingga menimbulkan penundaan bagi tim yang tersebar secara geografis.

Pendekatan penyimpanan terpusat yang tradisional terkendala oleh sumber data yang tersebar secara geografis. Semakin banyak praktisi AI yang beralih ke solusi penyimpanan tepi jaringan lokal yang menawarkan kontrol yang lebih besar, biaya yang lebih murah, dan latensi yang lebih rendah.

Menghadirkan penyimpanan data AI ke tepi jaringan.

Alih-alih mentransfer kumpulan data besar ke server cloud terpusat, organisasi dapat memproses dan menyimpan data AI lebih dekat ke tempat data tersebut dihasilkan. Pendekatan ini—sering disebut komputasi tepi jaringan—meminimalkan biaya perpindahan data sekaligus meningkatkan performa.
Salah satu solusi hemat biaya adalah sistem NAS hibrid kecil yang menyediakan penyimpanan lokal berperforma tinggi untuk beban kerja AI. Tidak seperti NAS tradisional, sistem ini mengintegrasikan alat AI kemas seperti Jupyter Notebooks, yang memungkinkan pakar domain dan pengembang AI untuk berkolaborasi secara langsung pada sistem penyimpanan itu sendiri. Dengan menghilangkan kebutuhan akan transfer data yang konstan, solusi NAS ini mengurangi biaya operasional sekaligus mempercepat pengembangan AI.
Memproses data AI di tepi jaringan juga memberi organisasi kontrol yang lebih besar atas kumpulan data mereka. Mempertahankan kedaulatan atas data pelatihan AI memastikan kepatuhan terhadap peraturan industri dan mengurangi risiko yang terkait dengan penyimpanan pihak ketiga. Pendekatan ini membuat alur kerja AI lebih efisien dengan menjaga data tetap dekat dengan tempat pengumpulan dan analisisnya.

Komputasi tepi jaringan menawarkan banyak keuntungan untuk pengembangan AI:

  • Menurunkan biaya. Mengurangi penyimpanan cloud dan biaya transfer data.
  • Pengembangan AI yang lebih cepat. Menyimpan data pelatihan lokal untuk akses cepat.
  • Kontrol data yang lebih baik. Mempertahankan kedaulatan dan kepatuhan dengan memastikan data disimpan dan diproses secara internal.

Lab tepi jaringan AI: arsitektur dan pengaturan sistem.

Untuk mempelajari kelayakan menjalankan beban kerja AI pada penyimpanan lokal, kami membangun kluster NAS tiga node dan mengukur performa penyimpanannya.

Konfigurasi sistem:

  • Perangkat Keras:
  • Prosesor Intel N5095 (penggunaan daya rendah)
  • Port ethernet 2.5GE ganda
  • Hard disk IronWolf® Pro 4 x 24 TB (RAID5, 70 TB dapat digunakan per node)
  • SSD opsional dan unit pemrosesan tensor (TPU) untuk percepatan
  • Perangkat Lunak:
  • Wadah Notebook Jupyter untuk pengembangan AI berbasis Python
  • NATS Jetstream untuk pengiriman pesan yang toleran terhadap kesalahan, penyimpanan nilai kunci, dan penyimpanan objek
  • Replikasi data multi-node untuk redundansi dan ketahanan
data-storage-is-the-oxygen-images-figure-1-1440x900

Pengujian performa: mengevaluasi penyimpanan dan jaringan.

Pertama, kami mengukur performa node tunggal untuk menetapkan garis dasar untuk throughput. Sistem mencapai 200 MB/dtk per tautan 2.5GE untuk transfer data yang besar.

data-storage-is-the-oxygen-images-figure-2-1440x900

Selanjutnya, kami menganalisis cara replikasi multi-node memengaruhi performa. Meskipun replikasi data meningkatkan lalu lintas jaringan, peningkatan ini memiliki dampak yang minimum pada performa baca—keunggulan utama untuk beban kerja yang memerlukan konsistensi data di beberapa node.

data-storage-is-the-oxygen-images-figure-3-1440x900

Pengujian performa jaringan mengungkapkan bahwa menambahkan tautan 2.5GE kedua hanya memberikan manfaat kecil pada penulisan, sementara jaringan 10GE meningkatkan performa dalam kasus tertentu.

data-storage-is-the-oxygen-images-figure-4-1440x900

Pelatihan AI dunia nyata yang canggih.

Untuk menyimulasikan alur kerja AI, kami menguji tugas pembelajaran mesin dunia nyata menggunakan sistem NAS. Kami melatih model klasifikasi kapal menggunakan kumpulan data berisi 500 gambar berlabel, menjalankan ekstraksi fitur, dan pelatihan model secara lokal.

Setelah menyimpan gambar dalam keranjang penyimpanan objek dengan label metadata, kami menggunakan PyTorch Img2Vec untuk mengekstrak fitur dari setiap gambar, lalu melatih pengklasifikasi hutan acak. Model yang dihasilkan mencapai 78% akurasi dalam waktu kurang dari satu menit.

data-storage-is-the-oxygen-images-figure-5-1440x900

Pengamatan utama dari tes ini meliputi:

  • Ekstraksi fitur membutuhkan waktu paling lama (81%), memperkuat kebutuhan akan penyimpanan lokal yang cepat.
  • Pelatihan model AI selesai dalam waktu kurang dari satu menit, membuktikan efisiensi alur kerja NAS lokal untuk AI.
  • Pakar domain tanpa pelatihan AI formal dapat menjalankan eksperimen dengan sukses, sehingga menunjukkan aksesibilitas pendekatan ini.

Eksperimen ini menunjukkan bahwa penyimpanan NAS yang dilokalkan dapat berfungsi sebagai hub data AI yang hemat biaya, sehingga mengurangi ketergantungan pada layanan cloud sekaligus meningkatkan aksesibilitas dan performa.

Gagasan akhir: Penyimpanan AI harus berkembang.

Masa depan AI bergantung pada penyimpanan data yang efisien, hemat biaya, dan terukur. Karena volume data terus berkembang, organisasi harus memikirkan kembali cara mereka menyimpan dan mengelola kumpulan data AI.

Solusi NAS yang dilokalkan memberikan alternatif praktis untuk penyimpanan cloud yang mahal, sehingga memungkinkan tim AI:

  • Menghemat biaya sekaligus mempertahankan akses performa tinggi ke data.
  • Menambah efisiensi alur kerja AI dengan menjaga data tetap dekat dengan komputasi.
  • Meningkatkan kepatuhan dan kedaulatan dengan mengontrol tempat data AI berada.

Sama seperti oksigen yang menopang kehidupan, penyimpanan data mendukung inovasi AI. Dengan menjadikan penyimpanan siap-AI lebih mudah diakses, hemat biaya, dan berperforma tinggi, organisasi dapat mempercepat terobosan berbasis AI mereka.

Topik Terkait:

Innovation Data Center