De veranderende opslagbehoeften voor AI-infrastructuur.
03 mrt., 2025
AI-opslagoplossingen moeten evolueren om de enorme gegevensgroei aan te kunnen. Innovaties zoals stations met dubbele actuator, NVMe-gebaseerde opslag en energie-efficiënte oplossingen geven vorm aan de toekomst van AI-infrastructuur.
Naarmate kunstmatige intelligentie (AI) zich verder ontwikkelt, moet de infrastructuur die AI ondersteunt, evolueren om te kunnen voldoen aan de toenemende vraag naar gegevensopslag en -verwerking. Gegevensopslag speelt een cruciale rol in de levenscyclus van AI-infrastructuur en oplossingen moeten bestand zijn tegen huidige en toekomstige AI-uitdagingen.
De hoeveelheid gegevens die dagelijks wordt gegenereerd is duizelingwekkend. Van slimme steden die 143 petabytes aan gegevens per dag produceren, volgens een rapport van Kaleido Intelligence1, tot autonome voertuigen die terabytes (TB's) aan gegevens genereren, is de behoefte aan efficiënte oplossingen voor gegevensopslag dringender dan ooit. Autonome autobedrijven uploaden enorme hoeveelheden gegevens naar cloudserviceproviders, waar ze worden verwerkt en gebruikt om AI-modellen te verbeteren. Deze continue stroom van gegevens vereist robuuste opslagoplossingen die zowel het volume als de snelheid aankunnen die voor AI-toepassingen vereist zijn.
Ondanks de focus op geavanceerde technologieën zoals grafische verwerkingseenheden (GPU's), blijven harde schijven een cruciaal onderdeel van de AI-infrastructuur. Ze bieden de nodige opslagcapaciteit voor de enorme gegevenssets die gebruikt worden bij AI-training en -inferentie. Terwijl GPU's het zware werk van gegevensverwerking op zich nemen, slaan harde schijven de gegevens op die deze processen voeden. Deze symbiotische relatie zorgt ervoor dat AI-systemen efficiënt kunnen werken zonder geblokkeerd te worden door opslagbeperkingen.
Een van de grootste uitdagingen bij AI-infrastructuur is het in evenwicht brengen van prestaties en stroomverbruik. Naarmate GPU-clusters groeien, neemt het vermogen dat nodig is om ze te laten werken aanzienlijk toe. Bij grote implementaties zoals die bij AI-leiders zijn bijvoorbeeld duizenden GPU's betrokken, die elk aanzienlijke hoeveelheden stroom verbruiken. Hierdoor ontstaat de behoefte aan opslagoplossingen die niet alleen hoge prestaties bieden, maar ook efficiënt zijn wat betreft stroomverbruik. Om dit in perspectief te plaatsen: een enkele GPU kan tot 700 watt verbruiken, en grootschalige implementaties kunnen tot 100.000 GPU's omvatten, wat resulteert in een stroomvereiste van 70 megawatt. Deze component komt overeen met de totale stroomtoewijzing van een groot datacenter. Daarom moeten opslagoplossingen worden ontworpen om het stroomverbruik te minimaliseren en tegelijkertijd de prestaties te maximaliseren als ze samen met GPU's in de oplossing willen passen.
Bij AI-training zijn checkpoints van cruciaal belang om te voorkomen dat er vooruitgang verloren gaat in geval van systeemstoringen. Deze checkpoints slaan de toestand van het AI-model op regelmatige intervallen op (bijvoorbeeld om de paar minuten), zodat het trainingsproces kan worden hervat vanaf de laatst opgeslagen toestand in plaats van opnieuw te beginnen. Dit is vooral belangrijk voor langdurige trainingssessies die weken of zelfs maanden kunnen duren. Efficiënt checkpointing vereist snelle opslagoplossingen die grote hoeveelheden gegevens snel kunnen opslaan en ophalen.
Sommige grote trainingsplatforms voeren bijvoorbeeld tijdens de training elke minuut checkpoints uit, waarbij gegevens op solid-state drives (SSD's) worden opgeslagen en vervolgens naar harde schijven worden overgebracht. Dit proces zorgt ervoor dat zelfs als er een storing optreedt, de training met minimaal gegevensverlies kan worden hervat. De grootte van deze checkpoints kan aanzienlijk zijn, waarbij sommige modellen tot 12 TB opslagruimte per checkpoint vereisen.
Harde schijven zijn essentieel voor AI-checkpointing vanwege de schaalbaarheid, kostenefficiëntie, energie-efficiëntie en duurzaamheid, en de lange levensduur.
In de toekomst zal de vraag naar AI-opslag naar verwachting exponentieel groeien. Volgens gegevens van Bloomberg Intelligence, IDC, eMarketer en Statista2 zal de markt voor AI-opslag tegen 2032 naar verwachting 92 miljard dollar bereiken. Deze groei zal worden aangedreven door de toenemende complexiteit van AI-modellen en het toenemende gebruik van AI in verschillende sectoren. Om aan deze eisen te voldoen, moeten opslagoplossingen geavanceerder worden en hogere capaciteiten, hogere snelheden en een betere energie-efficiëntie bieden.
Er worden verschillende technische innovaties onderzocht om aan de opslagbehoeften van AI-infrastructuur te voldoen:
De opslagbehoeften voor AI-infrastructuur evolueren snel, gedreven door de exponentiële groei van gegevens en de toenemende complexiteit van AI-modellen. Naarmate we verder gaan, zal het essentieel zijn om opslagoplossingen te ontwikkelen die gelijke tred kunnen houden met deze eisen, zodat AI-systemen zich kunnen blijven ontwikkelen en hun belofte kunnen waarmaken om industrieën te transformeren en levens te verbeteren.
Praveen Viraraghavan
Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.