Ewoluujące potrzeby w zakresie pamięci masowej w infrastrukturze AI.
03 mar, 2025
Rozwiązania pamięci masowej związane ze sztuczną inteligencją muszą ewoluować, aby móc obsługiwać ogromny wzrost ilości danych. Innowacje, takie jak dyski z podwójnym serwomechanizmem, pamięć masowa oparta na NVMe oraz energooszczędne rozwiązania, kształtują przyszłość infrastruktury AI.
W miarę rozwoju sztucznej inteligencji (AI) infrastruktura, która ją obsługuje, musi ewoluować, aby móc sprostać rosnącemu zapotrzebowaniu na pamięć masową i przetwarzanie danych. Pamięć masowa danych odgrywa kluczową rolę w cyklu życia infrastruktury AI, a rozwiązania muszą być w stanie sprostać obecnym i przyszłym wyzwaniom związanym ze sztuczną inteligencją.
Ilość danych generowanych każdego dnia jest oszałamiająca. Począwszy od inteligentnych miast tworzących 143 petabajty danych dziennie, według raportu Kaleido Intelligence1, aż po autonomiczne pojazdy generujące terabajty (TB) danych, zapotrzebowanie na wydajne rozwiązania pamięci masowej jest pilniejsze niż kiedykolwiek wcześniej. Firmy motoryzacyjne zajmujące się autonomicznymi pojazdami przesyłają duże ilości danych do dostawców usług w chmurze, gdzie są one przetwarzane i wykorzystywane do poprawy modeli AI. Ten ciągły przepływ danych wymaga zastosowania niezawodnych rozwiązań pamięci masowej, które są w stanie zapewnić zarówno pojemność, jak i szybkość wymaganą w zastosowaniach wykorzystujących sztuczną inteligencję.
Pomimo skupienia się na najnowocześniejszych technologiach, takich jak procesory graficzne (GPU), dyski twarde pozostają kluczowym elementem infrastruktury AI. Zapewniają one niezbędną pojemność pamięci masowej do obsługi ogromnych zestawów danych wykorzystywanych w trenowaniu AI i wnioskowaniu. Podczas gdy procesory GPU radzą sobie z intensywnym przetwarzaniem danych, dyski twarde przechowują dane, które są podstawą tych procesów. Ten symbiotyczny związek zapewnia skuteczne działanie systemów AI bez zmniejszania ich wydajności poprzez ograniczenia pamięci masowej.
Jednym z największych wyzwań w zakresie infrastruktury AI jest zrównoważenie wydajności i zużycia energii. Wraz ze wzrostem klastrów GPU znacząco wzrasta moc wymagana do ich działania. Na przykład duże wdrożenia, takie jak te u liderów w zakresie sztucznej inteligencji, obejmują tysiące procesorów graficznych, z których każdy zużywa znaczną ilość energii. Stwarza to zapotrzebowanie na rozwiązania pamięci masowej, które nie tylko oferują wysoką wydajność, lecz także charakteryzują się oszczędnością pod względem zużycia energii. Przykładowo pojedynczy procesor GPU może zużywać do 700 watów, natomiast wdrożenia na dużą skalę mogą obejmować nawet 100 000 procesorów GPU, co w efekcie daje zapotrzebowanie na energię na poziomie 70 megawatów. Odpowiada to całkowitej alokacji mocy w dużym centrum danych. Dlatego rozwiązania pamięci masowej muszą być projektowane w taki sposób, aby zminimalizować zużycie energii przy jednoczesnej maksymalizacji wydajności, jeśli chcą znaleźć się w rozwiązaniu wraz z procesorami graficznymi.
W trenowaniu sztucznej inteligencji punkty kontrolne mają kluczowe znaczenie dla zapobiegania utracie postępów w razie awarii systemu. Te punkty kontrolne zapisują stan modelu AI w regularnych odstępach czasu (np. co kilka minut), dzięki czemu proces uczenia może być wznowiony od ostatniego zapisanego stanu zamiast zaczynać się od nowa. Jest to szczególnie ważne w przypadku długich sesji trenowania, które mogą obejmować tygodnie lub nawet miesiące. Wydajne wyznaczanie punktów kontrolnych wymaga szybkich rozwiązań pamięci masowej, które są w stanie szybko zapisywać i odzyskiwać duże ilości danych.
Na przykład niektóre duże platformy szkoleniowe tworzą podczas trenowania punkty kontrolne co minutę, zapisując dane na dyskach półprzewodnikowych (SSD), a następnie przenosząc je na dyski twarde. Dzięki temu procesowi trenowanie może zostać wznowione przy minimalnej utracie danych, nawet w przypadku awarii. Rozmiary tych punktów kontrolnych mogą być znaczące, a niektóre modele wymagają nawet 12 TB pamięci masowej na punkt kontrolny.
Dyski twarde są niezbędne do tworzenia punktów kontrolnych związanych z AI ze względu na skalowalność, efektywność kosztową, wydajność energetyczną, zrównoważony rozwój i trwałość.
Patrząc w przyszłość, oczekuje się, że popyt na pamięć masową związaną z obsługą AI będzie rósł wykładniczo. Według danych Bloomberg Intelligence, IDC, eMarketer i Statista2 do 2032 roku rynek pamięci masowej związanej z AI ma osiągnąć poziom 92 mld USD. Wzrost ten będzie potęgowany przez rosnącą złożoność modeli AI oraz jej szersze wykorzystanie w różnych branżach. Aby sprostać tym wymaganiom, rozwiązania pamięci masowej będą musiały stawać się coraz bardziej zaawansowane, oferując większą pojemność, szybkość i lepszą wydajność energetyczną.
W celu zaspokojenia potrzeb w zakresie pamięci masowej w infrastrukturze sztucznej inteligencji analizowanych jest kilka innowacji technicznych:
Potrzeby infrastruktury AI w zakresie pamięci masowej szybko ewoluują w wyniku wykładniczego wzrostu ilości danych i rosnącej złożoności modeli AI. W miarę postępów konieczne będzie opracowywanie rozwiązań pamięci masowej, które będą w stanie nadążyć za tymi potrzebami, tak aby systemy AI mogły nadal się rozwijać i zapewniać transformację branż oraz poprawę jakości życia.
Praveen Viraraghavan
Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.