Tom Prohofsky

Perspective

03 apr., 2025

AI

Gegevensopslag is de zuurstof van machinaal leren en AI

Tom Prohofsky

Perspective

data-storage-is-the-oxygen-images-hero-1440x1080

Kunstmatige intelligentie (AI) en machine learning (ML) hebben transformatieve doorbraken teweeggebracht, van het voorspellen van eiwitstructuren tot het mogelijk maken van realtime taalvertaling. Aan de basis van deze innovaties ligt een onverzadigbare behoefte aan gegevens van hoge kwaliteit. AI-modellen hebben enorme datasets nodig om goed te werken en zonder betrouwbare, kosteneffectieve gegevensopslag zouden deze modellen - en de inzichten die ze genereren - hun potentieel niet kunnen bereiken.

Net zoals zuurstof de menselijke geest voedt, voedt gegevensopslag de ontwikkeling van AI. Het vermogen om data efficiënt op te slaan, te openen en te verwerken, bepaalt hoe effectief AI-modellen worden getraind en verfijnd. Maar naarmate de vraag naar AI-gestuurde oplossingen groeit, neemt ook de uitdaging toe om de levenscyclus van AI-gegevens te beheren - van verzameling tot opslag en verwerking - en tegelijkertijd de kosten en complexiteit onder controle te houden.

De groeiende vraag naar AI-ready gegevens

Datawetenschap is geëvolueerd van spreadsheets en eenvoudige analyses naar krachtige ML-gestuurde inzichten. Vandaag de dag meldt het Amerikaanse ministerie van Arbeid dat er meer dan 200.000 banen in datawetenschappen zijn, met een verwachte groei van 36% in de komende tien jaar. Domeinexperts in verschillende bedrijfstakken nemen AI-tools op in hun workflows, zelfs zonder formele datawetenschapstraining, door gebruik te maken van platforms zonder codering waarmee ze sneller dan ooit modellen kunnen bouwen en gegevens kunnen analyseren.

Maar ruwe gegevens alleen zijn niet nuttig. Voordat deze in AI-modellen ingevoerd kan worden, moeten ze gestructureerd, opgeschoond en gelabeld worden - een proces dat vaak data wrangling genoemd wordt. Open-source tools zoals Pandas helpen bij het transformeren van enorme datasets naar gestructureerde formaten die AI-modellen kunnen gebruiken. Dit proces vereist echter snelle, efficiënte en lokale gegevensopslag om knelpunten te voorkomen die de modelontwikkeling vertragen.

De uitdaging van AI-gegevensbeheer

Het enorme volume aan AI-trainingsgegevens brengt aanzienlijke logistieke uitdagingen met zich mee. Bij het opslaan en beheren van grote datasets gaat het niet alleen om capaciteit, maar ook om kosten, naleving en toegankelijkheid.

Enkele van de grootste uitdagingen op het gebied van AI-gegevensbeheer zijn:

  • Gegevenssoevereiniteit en -beveiliging. Organisaties moeten voldoen aan regelgeving met betrekking tot intellectueel eigendom, privacy en jurisdictiecontrole.
  • Kosten voor cloudopslag. AI-datasets die in de cloud zijn opgeslagen, kunnen vijf tot 10 keer duurder zijn dan wanneer er NAS-oplossingen op locatie gebruikt worden.
  • Knelpunten bij het verplaatsen van gegevens. Het overbrengen van grote datasets via die netwerken verspreid zijn over grote gebieden is traag en duur, waardoor vertragingen ontstaan voor geografisch verspreide teams.

Traditionele gecentraliseerde opslagbenaderingen worden uitgedaagd door geografisch verspreide gegevensbronnen. Een groeiend aantal AI-professionals wendt zich tot gelokaliseerde edge-opslagoplossingen die meer controle, lagere kosten en een kortere latentie bieden.

AI-gegevensopslag en edge computing

In plaats van enorme datasets over te brengen naar gecentraliseerde servers in de cloud, kunnen organisaties AI-gegevens dichter bij de plek verwerken en opslaan waar ze gegenereerd worden. Deze aanpak - vaak edge computing genoemd - minimaliseert de kosten voor gegevensverplaatsing en verbetert de prestaties.
Een kosteneffectieve oplossing zijn kleine, hybride NAS-systemen die lokale, met hoge prestaties werkende opslag bieden voor AI-werkbelastingen. In tegenstelling tot traditionele NAS-systemen integreren deze systemen gecontaineriseerde AI-tools zoals Jupyter Notebooks, waardoor domeinexperts en AI-ontwikkelaars direct op het opslagsysteem zelf kunnen samenwerken. Doordat er geen constante gegevensoverdracht meer nodig is, verlagen deze NAS-oplossingen de operationele kosten terwijl ze de ontwikkeling van AI versnellen.
Door AI-gegevens in de edge te verwerken, krijgen organisaties ook meer controle over hun datasets. Behoud van soevereiniteit over AI-trainingsgegevens garandeert naleving van branchevoorschriften en vermindert de risico's die gepaard gaan met opslag van derden. Deze aanpak maakt AI-workflows efficiënter door gegevens dicht bij de plaats te houden waar ze verzameld en geanalyseerd worden.

Edge computing biedt meerdere voordelen voor AI-ontwikkeling:

  • Lagere kosten. Het vermindert de kosten voor cloud-opslag en gegevensoverdracht.
  • Snellere AI-ontwikkeling. Het houdt trainingsgegevens lokaal voor snelle toegang.
  • Betere gegevenscontrole. Het handhaaft soevereiniteit en compliance door ervoor te zorgen dat gegevens intern worden opgeslagen en verwerkt.

AI edge laboratium: Systeemarchitectuur en configuratie

Om de haalbaarheid van het uitvoeren van AI-workloads op gelokaliseerde opslag te onderzoeken, hebben we een NAS-cluster met drie nodes gebouwd en de opslagprestaties gemeten.

Systeemconfiguratie:

  • Hardware:
  • Intel N5095 processor (laag energieverbruik)
  • Dubbele 2,5GE ethernetpoorten
  • 4 x 24TB IronWolf® Pro harde schijven (RAID5, 70TB bruikbaar per knooppunt)
  • Optionele SSD's en tensor processing units (TPU's) voor versnelling
  • Software:
  • Jupyter Notebook-containers voor op Python gebaseerde AI-ontwikkeling
  • NATS Jetstream voor fouttolerante berichtenuitwisseling, opslag van sleutelwaarden en objectopslag
  • Gegevensredundantie met meerdere knooppunten voor redundantie en veerkracht
data-storage-is-the-oxygen-images-figure-1-1440x900

Prestatietests: Opslag en netwerken evalueren

We hebben eerst de prestaties van één knooppunt gemeten om een basislijn voor doorvoer vast te stellen. Het systeem behaalde een 200 MB/s per 2,5 GE-verbinding voor grote gegevensoverdrachten.

data-storage-is-the-oxygen-images-figure-2-1440x900

Vervolgens analyseerden we hoe replicatie met meerdere knooppunten de prestaties beïnvloedde. Hoewel gegevensreplicatie het netwerkverkeer deed toenemen, had het minimale invloed op de leesprestaties, een belangrijk voordeel voor werkbelastingen die consistentie van gegevens op meerdere knooppunten vereisen.

data-storage-is-the-oxygen-images-figure-3-1440x900

Tests van netwerkprestaties toonden aan dat het toevoegen van een tweede 2,5GE-verbinding slechts kleine schrijfvoordelen opleverde, terwijl 10GE netwerken de prestaties in bepaalde gevallen verbeterden.

data-storage-is-the-oxygen-images-figure-4-1440x900

Real-world Ai-training in de edge

Om een AI-workflow te simuleren, hebben we een echte machine-leertaak getest met het NAS-systeem. We trainden een classificatiemodel voor boten met behulp van een dataset van 500 gelabelde afbeeldingen, waarbij kenmerkextractie en modeltraining lokaal werden uitgevoerd.

Nadat we de afbeeldingen in een object storage bucket met metadatalabels hadden opgeslagen, gebruikten we PyTorch Img2Vec om kenmerken uit elke afbeelding te extraheren. Vervolgens trainden we een random forest classifier. Het resulterende model behaalde 78% nauwkeurigheid in minder dan een minuut.

data-storage-is-the-oxygen-images-figure-5-1440x900

De belangrijkste observaties van deze test waren:

  • De extractie van kenmerken nam de meeste tijd in beslag (81%),, wat de behoefte aan snelle lokale opslag versterkt.
  • Het trainen van AI-modellen was in minder dan een minuut klaar, wat de efficiëntie van lokale NAS voor AI-workflows aantoont.
  • Domeinexperts zonder formele AI-training konden het experiment met succes uitvoeren,, wat de toegankelijkheid van deze aanpak aantoont.

Dit experiment toonde aan dat gelokaliseerde NAS-opslag kan dienen als een kosteneffectieve AI-datahub, die de afhankelijkheid van cloudservices vermindert en tegelijkertijd de toegankelijkheid en prestaties verbetert.

Afsluitende gedachten: AI-opslag moet evolueren

De toekomst van AI hangt af van efficiënte, kosteneffectieve en schaalbare gegevensopslag. Omdat de datavolumes blijven groeien, moeten organisaties opnieuw nadenken over hoe ze AI-datasets opslaan en beheren.

Gelokaliseerde NAS-oplossingen bieden een praktisch alternatief voor dure opslag in de cloud, waardoor AI-teams:

  • De kosten kunnen verlagen met behoud van toegang tot gegevens met hoge prestaties.
  • De efficiëntie van de Ai-workflow kunnen verbeteren door gegevens dicht bij de berekening te houden.
  • Naleving en soevereiniteit kunnen verbeteren door te bepalen waar AI-gegevens zich bevinden.

Net zoals zuurstof het leven ondersteunt, ondersteunt gegevensopslag AI-innovatie. Door AI-ready opslag toegankelijker, kostenefficiënter en met hoge prestaties te maken, kunnen organisaties hun AI-gedreven doorbraken versnellen.

Verwante onderwerpen:

Innovation Data Center