Tom Prohofsky

Perspective

03 Nis, 2025

Yapay zeka

Veri depolama, makine öğrenimi ve yapay zekanın oksijen kaynağıdır

Tom Prohofsky

Perspective

data-storage-is-the-oksigen-images-hero-1440x1080

Yapay zeka (AI) ve makine öğrenimi (ML), protein yapılarını tahmin etmekten gerçek zamanlı dil çevirisini mümkün kılmaya kadar dönüştürücü atılımları hızlandırdı. Bu yeniliklerin temelinde yüksek kaliteli verilere yönelik bitmek tükenmek bilmeyen bir ihtiyaç yatar. Yapay zeka modelleri geniş veri kümelerinde başarılı olur ancak güvenilir, uygun maliyetli veri depolama olmadan bu modeller ve oluşturdukları bilgiler potansiyellerine ulaşamaz.

Tıpkı oksijenin insan zihnini beslemesi gibi, veri depolama da yapay zeka gelişimini tetikler. Verileri verimli bir şekilde depolama, bunlara erişme ve işleme yeteneği, yapay zeka modellerinin ne kadar etkili bir şekilde eğitilip geliştirileceğini belirler. Ancak yapay zeka odaklı çözümlere olan talep arttıkça, maliyetleri ve karmaşıklığı kontrol altında tutarken yapay zeka verilerinin yaşam döngüsünü (toplamadan depolamaya ve işlemeye) yönetme zorluğu da artıyor.

Yapay zekaya hazır veriler için artan talep

Veri bilimi, e-tablolardan ve basit analizlerden makine öğrenimi odaklı güçlü analizlere dönüştü. Bugün ABD Çalışma Bakanlığı, gelecek on yılda %36 oranında bir büyüme beklentisiyle 200.000’den fazla veri bilimi işi olduğunu bildiriyor. Farklı sektörlerdeki alan uzmanları, resmi veri bilimi eğitimi olmasa bile yapay zeka araçlarını iş akışlarına dahil ederek, model oluşturmalarını ve verileri hiç olmadığı kadar hızlı bir şekilde analiz etmelerini sağlayan kodsuz platformlar kullanıyor.

Ancak ham veriler kendi başlarına yararlı değildir. Yapay zeka modellerine eklenmeden önce yapılandırılmaları, temizlenmeleri ve etiketlenmeleri gerekir. Buna genellikle veri karıştırma denir. Pandas gibi açık kaynaklı araçlar büyük veri kümelerinin, yapay zeka modellerinin kullanabileceği yapılandırılmış biçimlere dönüştürülmesine yardımcı olur. Ancak bu işlem, model geliştirmeyi yavaşlatan darboğazlardan kaçınmak için hızlı, verimli ve yerel veri depolama gerektirir.

Yapay zeka veri yönetiminin zorluğu

Yapay zeka eğitim verilerinin büyük hacmi, önemli lojistik zorluklar sunar. Büyük veri kümelerini depolamak ve yönetmek sadece kapasiteyle ilgili değildir; maliyet, uyumluluk ve erişilebilirlik ile de ilgilidir.

Yapay zeka veri yönetimindeki en büyük zorluklardan bazıları şunlardır:

  • Veri egemenliği ve güvenliği. Kuruluşlar, fikri mülkiyet, gizlilik ve yargı denetimiyle ilgili düzenlemelere uymalıdır.
  • Bulut depolama maliyetleri. Bulutta depolanan yapay zeka veri kümeleri, kurum içi NAS çözümlerini kullanmaya göre beş ila 10 kat daha pahalı olabilir.
  • Veri taşıma sorunları. Büyük veri kümelerinin geniş alan ağları arasında aktarılması yavaş ve maliyetlidir ve coğrafi olarak dağınık ekipler için gecikmelere neden olur.

Geleneksel merkezi depolama yaklaşımları, coğrafi olarak dağınık veri kaynakları tarafından zorlanmaktadır. Artan sayıda yapay zeka uygulayıcısı, daha fazla kontrol, daha düşük maliyet ve daha az gecikme sunan yerelleştirilmiş edge depolama çözümlerine yöneliyor.

Yapay zeka veri depolaması edge’e taşınıyor

Kuruluşlar, büyük veri kümelerini merkezi bulut sunucularına aktarmak yerine yapay zeka verilerini oluşturuldukları yerin yakınında işleyebilir ve depolayabilir. Genellikle edge bilişim olarak adlandırılan bu yaklaşım, performansı artırırken veri taşıma maliyetlerini en aza indirir.
Uygun maliyetli bir çözüm, yapay zeka iş yükleri için yerel, yüksek performans depolama sunan küçük, karma NAS sistemleridir. Geleneksel NAS'tan farklı olarak bu sistemler, Jupyter Dizüstü Bilgisayarları gibi kapsayıcılı yapay zeka araçlarını entegre ederek, alan uzmanlarıyla yapay zeka geliştiricilerinin doğrudan depolama sistemi üzerinde iş birliği yapmasına olanak tanır. Sürekli veri aktarımı ihtiyacını ortadan kaldıran bu NAS çözümleri, yapay zeka geliştirmeyi hızlandırırken operasyonel maliyetleri düşürür.
Yapay zeka verilerinin edge’de işlenmesi, kuruluşların veri kümeleri üzerinde daha fazla kontrol sahibi olmasını da sağlar. Yapay zeka eğitim verileri üzerinde egemenliği korumak, sektör düzenlemelerine uyum sağlar ve üçüncü taraf depolamayla ilişkili riskleri azaltır. Bu yaklaşım, verileri toplandığı ve analiz edildiği yere yakın tutarak yapay zeka iş akışlarını daha verimli hâle getirir.

Edge bilişim, yapay zeka geliştirme için birden fazla avantaj sunar:

  • Maliyetleri azaltın. Bulut depolama ve veri aktarımı masraflarını azaltır.
  • Daha hızlı yapay zeka geliştirme. Eğitim verilerini hızlı erişim için yerel olarak saklar.
  • Daha iyi veri kontrolü. Verilerin şirket içinde depolanmasını ve işlenmesini sağlayarak bağımsızlığı ve uyumluluğu korur.

Yapay zeka edge laboratuvarı: Sistem mimarisi ve kurulumu

Yerelleştirilmiş depolamada yapay zeka iş yüklerini çalıştırmanın fizibilitesini araştırmak için üç düğümlü bir NAS kümesi oluşturduk ve depolama performansını ölçtük.

Sistem yapılandırması:

  • Donanım:
  • Intel N5095 işlemci (düşük güç kullanımı)
  • Çift 2.5GE ethernet bağlantı noktası
  • 4 x 24 TB IronWolf® Pro sabit disk (RAID5, düğüm başına 70 TB kullanılabilir)
  • İvme için isteğe bağlı SSD’ler ve tensör işleme üniteleri (TPU’lar)
  • Yazılım:
  • Python tabanlı yapay zeka geliştirme için Jupyter Notebook kapsayıcıları
  • Hata toleranslı mesajlaşma, anahtar/değer depolama ve nesne depolama için NATS Jetstream
  • Artıklık ve esneklik için çok düğümlü veri çoğaltma
data-storage-is-the-oksigen-images-figure-1-1440x900

Performans testi: Depolama ve ağların değerlendirilmesi

İş hacmi için bir temel oluşturmak üzere önce tek düğümün performansını ölçtük. Sistem, büyük veri aktarımları için 2.5GE bağlantısı başına 200 MB/sn elde etti.

data-storage-is-the-oksigen-images-figure-2-1440x900

Ardından çok düğümlü çoğaltmanın performansı nasıl etkilediğini analiz ettik. Veri çoğaltma ağ trafiğini artırırken, okuma performansı üzerinde minimum etkiye neden oldu. Bu, birden fazla düğümde veri tutarlılığı gerektiren iş yükleri için önemli bir avantajdır.

data-storage-is-the-oksigen-images-figure-3-1440x900

Ağ performansı testleri, ikinci bir 2.5GE bağlantısının eklenmesinin sadece küçük yazma avantajları sağladığını, 10GE ağ bağlantısının ise belirli durumlarda performansı artırdığını gösterdi.

data-storage-is-the-oksigen-images-figure-4-1440x900

Edge'de gerçek yapay zeka eğitimi

Yapay zeka iş akışını simüle etmek için NAS sistemini kullanarak gerçek dünyadan bir makine öğrenimi görevini test ettik. 500 etiketli görüntüden oluşan bir veri kümesi kullanarak ve özellik çıkarma ile model eğitimini yerel olarak çalıştırarak bir tekne sınıflandırma modelini eğittik.

Görüntüleri meta veri etiketleriyle bir nesne depolama kutusuna depoladıktan sonra, her görüntüden öznitelikler çıkarmak ve ardından bir rastgele orman sınıflandırıcısı eğitmek için PyTorch Img2Vec kullandık. Ortaya çıkan model, bir dakikadan kısa bir sürede %78 doğruluk elde etti.

data-storage-is-the-oksigen-images-figure-5-1440x900

Bu testten elde edilen temel gözlemler şunlardır:

  • En çok zamanı özellik çıkarma aldı (%81); bu, hızlı yerel depolamaya olan ihtiyacı vurguluyor.
  • Yapay zeka modeli eğitimi bir dakikadan kısa sürede tamamlandı; bu, yapay zeka iş akışları için yerel NAS'ın verimliliğini kanıtlıyor.
  • Resmi yapay zeka eğitimi almamış alan uzmanlar denemeyi başarıyla yürütebildi; bu, yaklaşımın erişilebilirliğini gösteriyor.

Bu deney, yerelleştirilmiş NAS depolamasının, erişilebilirliği ve performansı artırırken bulut hizmetlerine olan bağımlılığı azaltarak uygun maliyetli bir yapay zeka veri hub’ı olarak kullanılabileceğini göstermiştir.

Son düşünceler: Yapay zeka depolamasının gelişmesi gerekiyor

Yapay zekanın geleceği verimli, uygun maliyetli ve ölçeklenebilir veri depolamaya bağlıdır. Veri hacimleri artmaya devam ettikçe kuruluşların yapay zeka veri kümelerini depolama ve yönetme yöntemlerini yeniden düşünmesi gerekiyor.

Yerelleştirilmiş NAS çözümleri, pahalı bulut depolamasına pratik bir alternatif sunarak yapay zeka ekiplerinin şunları yapmasına olanak tanır:

  • Maliyetleri düşürerek yüksek performanslı erişim sağlama.
  • Yapay zeka iş akışı verimliliğini artırırken verileri işlemlere yakın tutma.
  • Uyumluluğu ve egemenliği artırırken yapay zeka verilerinin nerede olacağını kontrol etme.

Yaşamı sürdüren oksijen gibi, veri depolama da yapay zeka inovasyonunu destekler. Kuruluşlar, yapay zekaya hazır depolamayı daha erişilebilir, uygun maliyetli ve yüksek performanslı hâle getirerek yapay zeka odaklı atılımlarını hızlandırabilir.

İlgili Konular:

Innovation Data Center