AI mendorong pertumbuhan data yang belum pernah terjadi sebelumnya.

Seiring kemajuan model dan AI menjadi marak digunakan, pembuatan data akan tumbuh secara eksponensial.

Kreasi dan inovasi akan meledak dengan AI.

AI Generatif menghadirkan era baru tempat media kaya berkembang di hampir setiap aspek kehidupan sehari-hari, mulai dari game yang dipersonalisasi hingga pencitraan medis, pembuatan game, dan seterusnya.

Aplikasi AI yang memberdayakan pengguna untuk membuat, menganalisis, dan mengembangkan menjadi lebih mudah diakses, yang menghasilkan pertumbuhan data berbasis AI. Namun, ini baru permulaan. Orang dan mesin akan menghasilkan data secara lebih cepat dari sebelumnya karena kasus penggunaan inovatif yang meningkat.

AI adalah pengganda kekuatan pertumbuhan data.

AI selalu menjadi konsumen data. Sekarang, AI adalah pembuat data yang andal.

Hanya dalam waktu 1,5 tahun, AI menciptakan 15 miliar gambar.¹ Pada tahun 2028, pembuatan gambar dan video dengan model AI akan tumbuh 167 kali lipat². Pada akhirnya, era AI memicu titik perubahan pertumbuhan data utama yang didorong oleh tiga faktor utama: konten yang lebih kaya, replikasi yang lebih banyak, dan retensi yang lebih lama.

Konten yang lebih kaya.

Potensi transformatif AI terletak pada model multimodal yang menggunakan dan memproduksi media kaya.

Replikasi yang lebih banyak.

Data AI disalin berkali-kali saat model dilatih dan menghasilkan output.

Retensi yang lebih lama.

Mempertahankan data akan mendorong pengembangan AI dan memberikan transparansi.

Konten yang lebih kaya.

Potensi transformatif AI terletak pada model multimodal yang menggunakan dan memproduksi media kaya.

The smart chatbots and search summaries we use today are mere baby steps in AI's growth. The real transformative potential lies in multimodal AI models that consume and produce rich media.

Input yang lebih kaya, seperti gambar, audio, video, dan animasi 3D, menciptakan output lebih kaya yang dapat mendukung pengalaman yang lebih kuat dan intuitif. Saat aplikasi AI multimodal berkembang dalam cakupan dan kemampuan, orang dan bisnis akan dapat berkreasi dengan kecepatan yang belum pernah terjadi sebelumnya.

AI media kaya pada masa mendatang akan menyentuh industri di mana pun.
  • Grafik gerak 3D resolusi tinggi untuk bermain game
  • Video Ultra HD untuk latar virtual dalam pembuatan film, lengkap dengan tambahan animasi
  • Generator CAD 3D dan simulator fisik untuk arsitektur, teknik, konstruksi, dan manufaktur
  • Asisten medis AI di bidang radiologi, onkologi, bedah
  • Sintesis molekuler untuk penemuan dan pengujian obat
  • Iklan, game, dan pengalaman online yang sangat dipersonalisasi
     
Semua media kaya ini akan digunakan untuk menyempurnakan model AI generasi berikutnya.

Di dunia baru ini tempat kita dapat membuat konten berjam-jam, ribuan gambar, dan terabyte data, tiga hal akan terjadi. Semakin banyak orang akan menggunakan AI untuk membuat konten yang semakin intensif data, AI akan mengambil semua data tersebut untuk melatih model generasi berikutnya, dan jumlah data yang dibuat dan disimpan dunia akan meledak.

Replikasi yang lebih banyak.

Data AI disalin berkali-kali saat model dilatih dan menghasilkan output.

Enabling successful AI models and applications requires more data replication. Whether to ensure model quality through checkpointing, distribute applications geographically, iterate outputs, or modify them into multiple formats, copying data is integral to AI as models are dispersed across cloud and enterprise environments.

Membuat dan menduplikasi konten baru hanyalah sebagian dari replikasi yang terjadi di seluruh siklus hidup data AI. Jejak data menjamur selama proses pengembangan dan produksi AI serta berkembang secara eksponensial setelah AI menggunakan dan mulai menghasilkan konten. Sepanjang siklus, seluruh ekosistem data diduplikasi berulang kali untuk kepatuhan terhadap peraturan.

Replikasi melipatgandakan data di setiap langkah.
  • Saat data ditemukan, dikumpulkan, dan diberi label untuk pelatihan, data tersebut juga diduplikasi.
  • Titik pemeriksaan teratur selama kemajuan pencadangan pelatihan, membuat ratusan file berat dalam proses pelatihan biasa.
  • Saat model dan aplikasi digunakan, datanya akan disalin di banyak node dan instans.
  • Semakin banyak orang akan menggunakan AI untuk membuat dan mengulangi berbagai konsep, eksperimen, dan versi.
Retensi yang lebih lama.

Mempertahankan data akan mendorong pengembangan AI dan memberikan transparansi.

The data an AI model consumes and creates is a treasure trove of model behavior, usage patterns, and raw material. The more data we preserve, the better we can train and optimize models to produce better quality output.

Pelatihan model dimulai dengan kumpulan data berlabel yang besar. Menyimpan data selama proses pelatihan, termasuk data titik pemeriksaan, dapat memberikan wawasan tentang perilaku model pada masa mendatang. Setelah model digunakan dan menciptakan hasil, setiap perintah dan respons merupakan sumber yang berharga untuk mengevaluasi performa model, menyesuaikan model, dan mempersiapkan proses pelatihan berikutnya.

Data harus dipertahankan pada setiap titik yang wajar dalam siklus data. 
  • Meningkatkan dan mengembangkan AI memerlukan data dan wawasan baru. Data yang disimpan dapat menyediakannya.
  • AI yang lebih cerdas di masa depan akan dapat mengambil wawasan dari data yang disimpan, sehingga menciptakan nilai baru. 
  • Undang-undang hak cipta menuntut agar karya dilisensikan untuk digunakan; mempertahankan data memberikan jejak yang dapat diaudit.
  • Peraturan memerlukan penyimpanan yang aman untuk menunjukkan kepatuhan terhadap pedoman privasi, hukum, dan etika.
AI tepercaya bergantung pada transparansi data.

Menjaga data dalam jangka panjang sangat penting untuk membangun kepercayaan model AI. Mendokumentasikan setiap keputusan yang dibuat model dan menganalisis hasilnya membantu pengembang menemukan penyimpangan model dan halusinasi.

Menelusuri kesalahan kembali ke data pelatihan dapat membantu membuka proses pengambilan keputusan model tertentu dan menyediakan data untuk pelatihan ulang dan pengoptimalan. Semua titik data ini harus dipertahankan dan dibagikan untuk memberikan bukti performa model yang objektif dan transparan.