Gegevensopslag is de zuurstof van machinaal leren en AI
03 apr., 2025
Kunstmatige intelligentie (AI) en machine learning (ML) hebben transformatieve doorbraken teweeggebracht, van het voorspellen van eiwitstructuren tot het mogelijk maken van realtime taalvertaling. Aan de basis van deze innovaties ligt een onverzadigbare behoefte aan gegevens van hoge kwaliteit. AI-modellen hebben enorme datasets nodig om goed te werken en zonder betrouwbare, kosteneffectieve gegevensopslag zouden deze modellen - en de inzichten die ze genereren - hun potentieel niet kunnen bereiken.
Net zoals zuurstof de menselijke geest voedt, voedt gegevensopslag de ontwikkeling van AI. Het vermogen om data efficiënt op te slaan, te openen en te verwerken, bepaalt hoe effectief AI-modellen worden getraind en verfijnd. Maar naarmate de vraag naar AI-gestuurde oplossingen groeit, neemt ook de uitdaging toe om de levenscyclus van AI-gegevens te beheren - van verzameling tot opslag en verwerking - en tegelijkertijd de kosten en complexiteit onder controle te houden.
Datawetenschap is geëvolueerd van spreadsheets en eenvoudige analyses naar krachtige ML-gestuurde inzichten. Vandaag de dag meldt het Amerikaanse ministerie van Arbeid dat er meer dan 200.000 banen in datawetenschappen zijn, met een verwachte groei van 36% in de komende tien jaar. Domeinexperts in verschillende bedrijfstakken nemen AI-tools op in hun workflows, zelfs zonder formele datawetenschapstraining, door gebruik te maken van platforms zonder codering waarmee ze sneller dan ooit modellen kunnen bouwen en gegevens kunnen analyseren.
Maar ruwe gegevens alleen zijn niet nuttig. Voordat deze in AI-modellen ingevoerd kan worden, moeten ze gestructureerd, opgeschoond en gelabeld worden - een proces dat vaak data wrangling genoemd wordt. Open-source tools zoals Pandas helpen bij het transformeren van enorme datasets naar gestructureerde formaten die AI-modellen kunnen gebruiken. Dit proces vereist echter snelle, efficiënte en lokale gegevensopslag om knelpunten te voorkomen die de modelontwikkeling vertragen.
Het enorme volume aan AI-trainingsgegevens brengt aanzienlijke logistieke uitdagingen met zich mee. Bij het opslaan en beheren van grote datasets gaat het niet alleen om capaciteit, maar ook om kosten, naleving en toegankelijkheid.
Enkele van de grootste uitdagingen op het gebied van AI-gegevensbeheer zijn:
Traditionele gecentraliseerde opslagbenaderingen worden uitgedaagd door geografisch verspreide gegevensbronnen. Een groeiend aantal AI-professionals wendt zich tot gelokaliseerde edge-opslagoplossingen die meer controle, lagere kosten en een kortere latentie bieden.
In plaats van enorme datasets over te brengen naar gecentraliseerde servers in de cloud, kunnen organisaties AI-gegevens dichter bij de plek verwerken en opslaan waar ze gegenereerd worden. Deze aanpak - vaak edge computing genoemd - minimaliseert de kosten voor gegevensverplaatsing en verbetert de prestaties.
Een kosteneffectieve oplossing zijn kleine, hybride NAS-systemen die lokale, met hoge prestaties werkende opslag bieden voor AI-werkbelastingen. In tegenstelling tot traditionele NAS-systemen integreren deze systemen gecontaineriseerde AI-tools zoals Jupyter Notebooks, waardoor domeinexperts en AI-ontwikkelaars direct op het opslagsysteem zelf kunnen samenwerken. Doordat er geen constante gegevensoverdracht meer nodig is, verlagen deze NAS-oplossingen de operationele kosten terwijl ze de ontwikkeling van AI versnellen.
Door AI-gegevens in de edge te verwerken, krijgen organisaties ook meer controle over hun datasets. Behoud van soevereiniteit over AI-trainingsgegevens garandeert naleving van branchevoorschriften en vermindert de risico's die gepaard gaan met opslag van derden. Deze aanpak maakt AI-workflows efficiënter door gegevens dicht bij de plaats te houden waar ze verzameld en geanalyseerd worden.
Edge computing biedt meerdere voordelen voor AI-ontwikkeling:
Om de haalbaarheid van het uitvoeren van AI-workloads op gelokaliseerde opslag te onderzoeken, hebben we een NAS-cluster met drie nodes gebouwd en de opslagprestaties gemeten.
We hebben eerst de prestaties van één knooppunt gemeten om een basislijn voor doorvoer vast te stellen. Het systeem behaalde een 200 MB/s per 2,5 GE-verbinding voor grote gegevensoverdrachten.
Vervolgens analyseerden we hoe replicatie met meerdere knooppunten de prestaties beïnvloedde. Hoewel gegevensreplicatie het netwerkverkeer deed toenemen, had het minimale invloed op de leesprestaties, een belangrijk voordeel voor werkbelastingen die consistentie van gegevens op meerdere knooppunten vereisen.
Tests van netwerkprestaties toonden aan dat het toevoegen van een tweede 2,5GE-verbinding slechts kleine schrijfvoordelen opleverde, terwijl 10GE netwerken de prestaties in bepaalde gevallen verbeterden.
Om een AI-workflow te simuleren, hebben we een echte machine-leertaak getest met het NAS-systeem. We trainden een classificatiemodel voor boten met behulp van een dataset van 500 gelabelde afbeeldingen, waarbij kenmerkextractie en modeltraining lokaal werden uitgevoerd.
Nadat we de afbeeldingen in een object storage bucket met metadatalabels hadden opgeslagen, gebruikten we PyTorch Img2Vec om kenmerken uit elke afbeelding te extraheren. Vervolgens trainden we een random forest classifier. Het resulterende model behaalde 78% nauwkeurigheid in minder dan een minuut.
De belangrijkste observaties van deze test waren:
Dit experiment toonde aan dat gelokaliseerde NAS-opslag kan dienen als een kosteneffectieve AI-datahub, die de afhankelijkheid van cloudservices vermindert en tegelijkertijd de toegankelijkheid en prestaties verbetert.
Afsluitende gedachten: AI-opslag moet evolueren
De toekomst van AI hangt af van efficiënte, kosteneffectieve en schaalbare gegevensopslag. Omdat de datavolumes blijven groeien, moeten organisaties opnieuw nadenken over hoe ze AI-datasets opslaan en beheren.
Gelokaliseerde NAS-oplossingen bieden een praktisch alternatief voor dure opslag in de cloud, waardoor AI-teams:
Net zoals zuurstof het leven ondersteunt, ondersteunt gegevensopslag AI-innovatie. Door AI-ready opslag toegankelijker, kostenefficiënter en met hoge prestaties te maken, kunnen organisaties hun AI-gedreven doorbraken versnellen.
Waarom gegevens de bepalende troef van de AI-economie zijn