Veri depolama, makine öğrenimi ve yapay zekanın oksijen kaynağıdır
03 Nis, 2025
Yapay zeka (AI) ve makine öğrenimi (ML), protein yapılarını tahmin etmekten gerçek zamanlı dil çevirisini mümkün kılmaya kadar dönüştürücü atılımları hızlandırdı. Bu yeniliklerin temelinde yüksek kaliteli verilere yönelik bitmek tükenmek bilmeyen bir ihtiyaç yatar. Yapay zeka modelleri geniş veri kümelerinde başarılı olur ancak güvenilir, uygun maliyetli veri depolama olmadan bu modeller ve oluşturdukları bilgiler potansiyellerine ulaşamaz.
Tıpkı oksijenin insan zihnini beslemesi gibi, veri depolama da yapay zeka gelişimini tetikler. Verileri verimli bir şekilde depolama, bunlara erişme ve işleme yeteneği, yapay zeka modellerinin ne kadar etkili bir şekilde eğitilip geliştirileceğini belirler. Ancak yapay zeka odaklı çözümlere olan talep arttıkça, maliyetleri ve karmaşıklığı kontrol altında tutarken yapay zeka verilerinin yaşam döngüsünü (toplamadan depolamaya ve işlemeye) yönetme zorluğu da artıyor.
Veri bilimi, e-tablolardan ve basit analizlerden makine öğrenimi odaklı güçlü analizlere dönüştü. Bugün ABD Çalışma Bakanlığı, gelecek on yılda %36 oranında bir büyüme beklentisiyle 200.000’den fazla veri bilimi işi olduğunu bildiriyor. Farklı sektörlerdeki alan uzmanları, resmi veri bilimi eğitimi olmasa bile yapay zeka araçlarını iş akışlarına dahil ederek, model oluşturmalarını ve verileri hiç olmadığı kadar hızlı bir şekilde analiz etmelerini sağlayan kodsuz platformlar kullanıyor.
Ancak ham veriler kendi başlarına yararlı değildir. Yapay zeka modellerine eklenmeden önce yapılandırılmaları, temizlenmeleri ve etiketlenmeleri gerekir. Buna genellikle veri karıştırma denir. Pandas gibi açık kaynaklı araçlar büyük veri kümelerinin, yapay zeka modellerinin kullanabileceği yapılandırılmış biçimlere dönüştürülmesine yardımcı olur. Ancak bu işlem, model geliştirmeyi yavaşlatan darboğazlardan kaçınmak için hızlı, verimli ve yerel veri depolama gerektirir.
Yapay zeka eğitim verilerinin büyük hacmi, önemli lojistik zorluklar sunar. Büyük veri kümelerini depolamak ve yönetmek sadece kapasiteyle ilgili değildir; maliyet, uyumluluk ve erişilebilirlik ile de ilgilidir.
Yapay zeka veri yönetimindeki en büyük zorluklardan bazıları şunlardır:
Geleneksel merkezi depolama yaklaşımları, coğrafi olarak dağınık veri kaynakları tarafından zorlanmaktadır. Artan sayıda yapay zeka uygulayıcısı, daha fazla kontrol, daha düşük maliyet ve daha az gecikme sunan yerelleştirilmiş edge depolama çözümlerine yöneliyor.
Kuruluşlar, büyük veri kümelerini merkezi bulut sunucularına aktarmak yerine yapay zeka verilerini oluşturuldukları yerin yakınında işleyebilir ve depolayabilir. Genellikle edge bilişim olarak adlandırılan bu yaklaşım, performansı artırırken veri taşıma maliyetlerini en aza indirir.
Uygun maliyetli bir çözüm, yapay zeka iş yükleri için yerel, yüksek performans depolama sunan küçük, karma NAS sistemleridir. Geleneksel NAS'tan farklı olarak bu sistemler, Jupyter Dizüstü Bilgisayarları gibi kapsayıcılı yapay zeka araçlarını entegre ederek, alan uzmanlarıyla yapay zeka geliştiricilerinin doğrudan depolama sistemi üzerinde iş birliği yapmasına olanak tanır. Sürekli veri aktarımı ihtiyacını ortadan kaldıran bu NAS çözümleri, yapay zeka geliştirmeyi hızlandırırken operasyonel maliyetleri düşürür.
Yapay zeka verilerinin edge’de işlenmesi, kuruluşların veri kümeleri üzerinde daha fazla kontrol sahibi olmasını da sağlar. Yapay zeka eğitim verileri üzerinde egemenliği korumak, sektör düzenlemelerine uyum sağlar ve üçüncü taraf depolamayla ilişkili riskleri azaltır. Bu yaklaşım, verileri toplandığı ve analiz edildiği yere yakın tutarak yapay zeka iş akışlarını daha verimli hâle getirir.
Edge bilişim, yapay zeka geliştirme için birden fazla avantaj sunar:
Yerelleştirilmiş depolamada yapay zeka iş yüklerini çalıştırmanın fizibilitesini araştırmak için üç düğümlü bir NAS kümesi oluşturduk ve depolama performansını ölçtük.
İş hacmi için bir temel oluşturmak üzere önce tek düğümün performansını ölçtük. Sistem, büyük veri aktarımları için 2.5GE bağlantısı başına 200 MB/sn elde etti.
Ardından çok düğümlü çoğaltmanın performansı nasıl etkilediğini analiz ettik. Veri çoğaltma ağ trafiğini artırırken, okuma performansı üzerinde minimum etkiye neden oldu. Bu, birden fazla düğümde veri tutarlılığı gerektiren iş yükleri için önemli bir avantajdır.
Ağ performansı testleri, ikinci bir 2.5GE bağlantısının eklenmesinin sadece küçük yazma avantajları sağladığını, 10GE ağ bağlantısının ise belirli durumlarda performansı artırdığını gösterdi.
Yapay zeka iş akışını simüle etmek için NAS sistemini kullanarak gerçek dünyadan bir makine öğrenimi görevini test ettik. 500 etiketli görüntüden oluşan bir veri kümesi kullanarak ve özellik çıkarma ile model eğitimini yerel olarak çalıştırarak bir tekne sınıflandırma modelini eğittik.
Görüntüleri meta veri etiketleriyle bir nesne depolama kutusuna depoladıktan sonra, her görüntüden öznitelikler çıkarmak ve ardından bir rastgele orman sınıflandırıcısı eğitmek için PyTorch Img2Vec kullandık. Ortaya çıkan model, bir dakikadan kısa bir sürede %78 doğruluk elde etti.
Bu testten elde edilen temel gözlemler şunlardır:
Bu deney, yerelleştirilmiş NAS depolamasının, erişilebilirliği ve performansı artırırken bulut hizmetlerine olan bağımlılığı azaltarak uygun maliyetli bir yapay zeka veri hub’ı olarak kullanılabileceğini göstermiştir.
Son düşünceler: Yapay zeka depolamasının gelişmesi gerekiyor
Yapay zekanın geleceği verimli, uygun maliyetli ve ölçeklenebilir veri depolamaya bağlıdır. Veri hacimleri artmaya devam ettikçe kuruluşların yapay zeka veri kümelerini depolama ve yönetme yöntemlerini yeniden düşünmesi gerekiyor.
Yerelleştirilmiş NAS çözümleri, pahalı bulut depolamasına pratik bir alternatif sunarak yapay zeka ekiplerinin şunları yapmasına olanak tanır:
Yaşamı sürdüren oksijen gibi, veri depolama da yapay zeka inovasyonunu destekler. Kuruluşlar, yapay zekaya hazır depolamayı daha erişilebilir, uygun maliyetli ve yüksek performanslı hâle getirerek yapay zeka odaklı atılımlarını hızlandırabilir.
Verinin yapay zeka ekonomisinin belirleyici varlığı olma sebebi