Przez Praveen Viraraghavan

03 mar, 2025

AI

Ewoluujące potrzeby w zakresie pamięci masowej w infrastrukturze AI.

PraveenViraraghavan

Rozwiązania pamięci masowej związane ze sztuczną inteligencją muszą ewoluować, aby móc obsługiwać ogromny wzrost ilości danych. Innowacje, takie jak dyski z podwójnym serwomechanizmem, pamięć masowa oparta na NVMe oraz energooszczędne rozwiązania, kształtują przyszłość infrastruktury AI.

Spis treści

W miarę rozwoju sztucznej inteligencji (AI) infrastruktura, która ją obsługuje, musi ewoluować, aby móc sprostać rosnącemu zapotrzebowaniu na pamięć masową i przetwarzanie danych. Pamięć masowa danych odgrywa kluczową rolę w cyklu życia infrastruktury AI, a rozwiązania muszą być w stanie sprostać obecnym i przyszłym wyzwaniom związanym ze sztuczną inteligencją.

Ilość danych generowanych każdego dnia jest oszałamiająca. Począwszy od inteligentnych miast tworzących 143 petabajty danych dziennie, według raportu Kaleido Intelligence1, aż po autonomiczne pojazdy generujące terabajty (TB) danych, zapotrzebowanie na wydajne rozwiązania pamięci masowej jest pilniejsze niż kiedykolwiek wcześniej. Firmy motoryzacyjne zajmujące się autonomicznymi pojazdami przesyłają duże ilości danych do dostawców usług w chmurze, gdzie są one przetwarzane i wykorzystywane do poprawy modeli AI. Ten ciągły przepływ danych wymaga zastosowania niezawodnych rozwiązań pamięci masowej, które są w stanie zapewnić zarówno pojemność, jak i szybkość wymaganą w zastosowaniach wykorzystujących sztuczną inteligencję.

Wydajność kontra moc.

Pomimo skupienia się na najnowocześniejszych technologiach, takich jak procesory graficzne (GPU), dyski twarde pozostają kluczowym elementem infrastruktury AI. Zapewniają one niezbędną pojemność pamięci masowej do obsługi ogromnych zestawów danych wykorzystywanych w trenowaniu AI i wnioskowaniu. Podczas gdy procesory GPU radzą sobie z intensywnym przetwarzaniem danych, dyski twarde przechowują dane, które są podstawą tych procesów. Ten symbiotyczny związek zapewnia skuteczne działanie systemów AI bez zmniejszania ich wydajności poprzez ograniczenia pamięci masowej.

Jednym z największych wyzwań w zakresie infrastruktury AI jest zrównoważenie wydajności i zużycia energii. Wraz ze wzrostem klastrów GPU znacząco wzrasta moc wymagana do ich działania. Na przykład duże wdrożenia, takie jak te u liderów w zakresie sztucznej inteligencji, obejmują tysiące procesorów graficznych, z których każdy zużywa znaczną ilość energii. Stwarza to zapotrzebowanie na rozwiązania pamięci masowej, które nie tylko oferują wysoką wydajność, lecz także charakteryzują się oszczędnością pod względem zużycia energii. Przykładowo pojedynczy procesor GPU może zużywać do 700 watów, natomiast wdrożenia na dużą skalę mogą obejmować nawet 100 000 procesorów GPU, co w efekcie daje zapotrzebowanie na energię na poziomie 70 megawatów. Odpowiada to całkowitej alokacji mocy w dużym centrum danych. Dlatego rozwiązania pamięci masowej muszą być projektowane w taki sposób, aby zminimalizować zużycie energii przy jednoczesnej maksymalizacji wydajności, jeśli chcą znaleźć się w rozwiązaniu wraz z procesorami graficznymi.

Znaczenie punktów kontrolnych.

W trenowaniu sztucznej inteligencji punkty kontrolne mają kluczowe znaczenie dla zapobiegania utracie postępów w razie awarii systemu. Te punkty kontrolne zapisują stan modelu AI w regularnych odstępach czasu (np. co kilka minut), dzięki czemu proces uczenia może być wznowiony od ostatniego zapisanego stanu zamiast zaczynać się od nowa. Jest to szczególnie ważne w przypadku długich sesji trenowania, które mogą obejmować tygodnie lub nawet miesiące. Wydajne wyznaczanie punktów kontrolnych wymaga szybkich rozwiązań pamięci masowej, które są w stanie szybko zapisywać i odzyskiwać duże ilości danych.

Na przykład niektóre duże platformy szkoleniowe tworzą podczas trenowania punkty kontrolne co minutę, zapisując dane na dyskach półprzewodnikowych (SSD), a następnie przenosząc je na dyski twarde. Dzięki temu procesowi trenowanie może zostać wznowione przy minimalnej utracie danych, nawet w przypadku awarii. Rozmiary tych punktów kontrolnych mogą być znaczące, a niektóre modele wymagają nawet 12 TB pamięci masowej na punkt kontrolny.

Dyski twarde są niezbędne do tworzenia punktów kontrolnych związanych z AI ze względu na skalowalność, efektywność kosztową, wydajność energetyczną, zrównoważony rozwój i trwałość.

Przyszłe trendy i innowacje.

Patrząc w przyszłość, oczekuje się, że popyt na pamięć masową związaną z obsługą AI będzie rósł wykładniczo. Według danych Bloomberg Intelligence, IDC, eMarketer i Statista2 do 2032 roku rynek pamięci masowej związanej z AI ma osiągnąć poziom 92 mld USD. Wzrost ten będzie potęgowany przez rosnącą złożoność modeli AI oraz jej szersze wykorzystanie w różnych branżach. Aby sprostać tym wymaganiom, rozwiązania pamięci masowej będą musiały stawać się coraz bardziej zaawansowane, oferując większą pojemność, szybkość i lepszą wydajność energetyczną.

W celu zaspokojenia potrzeb w zakresie pamięci masowej w infrastrukturze sztucznej inteligencji analizowanych jest kilka innowacji technicznych:

  • Wzrost gęstości powierzchniowej. Stały rozwój dysków twardych poprzez wprowadzanie innowacji w głowicach i nośnikach urządzeń pozwala na zwiększenie pojemności w ramach tej samej obudowy. Dyski Seagate z platformą Mozaic to najwydajniejsze dyski twarde zdolne do obniżenia kosztów zakupu oraz kosztów operacyjnych przy jednoczesnym zwiększeniu produktywności. Dzięki dyskom o zwiększonej gęstości powierzchniowej zapewnianej przez platformę Mozaic klienci mogą przechowywać większą ilość danych bez zwiększania zużycia przestrzeni, energii oraz zasobów naturalnych. Mozaic 3+ pomaga klientom osiągać cele związane ze zrównoważonym rozwojem – stanowiące jeden z priorytetów wielkoskalowych centrów danych – poprzez umożliwianie zmniejszenia o 55% śladu węglowego na terabajt3.
  • Dyski z podwójnym serwomechanizmem. Dyski te oferują zwiększoną wydajność dzięki zastosowaniu dwóch siłowników do jednoczesnego odczytu i zapisu danych. Może to znacznie poprawić przepustowość danych, ułatwiając obsługę dużych ilości danych generowanych przez aplikacje wykorzystujące sztuczną inteligencję.
  • Dyski twarde oparte na NVMe. Technologia non-volatile memory express (NVMe) zapewnia szybszy dostęp do danych w porównaniu z tradycyjnymi interfejsami SATA (serial advanced technology attachment) lub SAS (serial-attached SCSI [small computer system interface]). Stosując dyski twarde oparte na NVMe, centra danych mogą osiągnąć wyższą wydajność i niższe opóźnienia, co ma kluczowe znaczenie przy obciążeniach roboczych związanych ze sztuczną inteligencją.
  • Połączenia optyczne. W miarę wzrostu współczynników transferu danych tradycyjne połączenia miedziane mogą stać się wąskim gardłem. Połączenia optyczne zapewniają większą przepustowość i mniejsze opóźnienia, umożliwiając szybsze przesyłanie danych pomiędzy urządzeniami pamięci masowej i procesorami.
  • Energooszczędne rozwiązania pamięci masowej. W związku z rosnącym zapotrzebowaniem na energię w infrastrukturze AI rozwiązania pamięci masowej muszą być bardziej energooszczędne. Wiąże się to z koniecznością rozwijania dysków, które zużywają mniej energii przy zachowaniu wysokiej wydajności, a także opracowywaniem nowych technologii chłodzenia w celu zarządzania ciepłem wytwarzanym przez wdrożenia na dużą skalę.

Ewolucja wymagań w zakresie pamięci masowej związanej z AI.

Potrzeby infrastruktury AI w zakresie pamięci masowej szybko ewoluują w wyniku wykładniczego wzrostu ilości danych i rosnącej złożoności modeli AI. W miarę postępów konieczne będzie opracowywanie rozwiązań pamięci masowej, które będą w stanie nadążyć za tymi potrzebami, tak aby systemy AI mogły nadal się rozwijać i zapewniać transformację branż oraz poprawę jakości życia.

 


 

  1.  Cellular IoT Connectivity Series: Smart Cities Opportunities & Forecasts, Kaleido Intelligence, 2023, https://kaleidointelligence.com/smart-cities-2027/
  2. Generative AI to Become a $1.3 Trillion Market by 2032, Research Finds, Bloomberg Intelligence, 2023, https://www.bloomberg.com/company/press/generative-ai-to-become-a-1-3-trillion-market-by-2032-research-finds/
  3. Dysk Mozaic 3+ o pojemności 30 TB w porównaniu do konwencjonalnego dysku PMR o pojemności 16 TB. Emitowany dwutlenek węgla obejmuje emisje generowane w trakcie pozyskiwania surowców, produkcji/montażu produktu oraz transportu materiałów z miejsca pozyskiwania do miejsca produkcji i następnie do klientów.
Praveen Viraraghavan bio photo

Praveen Viraraghavan

Praveen Viraraghavan is a Technologist in the Products and Markets organization at Seagate Technology.