Pamięć masowa to tlen dla uczenia maszynowego i sztucznej inteligencji.
03 kwi, 2025
Sztuczna inteligencja (AI) oraz uczenie maszynowe (ML) stymulują przełomowe innowacje, począwszy od przewidywania struktur białkowych, aż po tłumaczenie językowe w czasie rzeczywistym. U podstaw tych innowacji leży nieustanna potrzeba wysokiej jakości danych. Modele AI działają w oparciu o ogromne zbiory danych, jednak bez niezawodnej i kosztowo efektywnej pamięci masowej danych modele te – oraz informacje, które generują – nie będą mogły osiągnąć swojego pełnego potencjału.
Pamięć masowa danych jest motorem rozwoju sztucznej inteligencji, tak jak tlen jest paliwem dla ludzkiego umysłu. Zdolność przechowywania, dostępu i wydajnego przetwarzania danych determinuje skuteczność uczenia i udoskonalania modeli AI. Coraz większemu zapotrzebowaniu na sztuczną inteligencję towarzyszą jednak również wyzwania związane z zarządzaniem cyklem życia danych AI – ich gromadzenia, przechowywania w pamięci masowej i przetwarzania – przy jednoczesnej kontroli kosztów i złożoności.
Dane przeszły ewolucję od arkuszy kalkulacyjnych i prostej analityki do zaawansowanych syntez informacji uzyskanych na podstawie uczenia maszynowego. Departament Pracy Stanów Zjednoczonych informuje, że istnieje aktualnie ponad 200 000 miejsc pracy przy analityce danych, a w ciągu następnej dekady przewiduje się wzrost tej liczby o 36% . Eksperci w różnych branżach, jesli nawet nie mają formalnego szkolenia z zakresu analityki danych, wprowadzają narzędzia AI do swoich procesów produkcyjnych, korzystając z platform bez kodu, które pozwalają im tworzyć modele i analizować dane szybciej niż dotychczas.
Surowe dane nie są jednak przydatne same w sobie. Zanim trafią do modeli AI, muszą zostać ustrukturyzowane, oczyszczone i oznaczone – jest to proces często nazywany zbieraniem danych. Narzędzia typu open source, takie jak Pandas pomagają przekształcić ogromne zbiory danych w ustrukturyzowane formaty, z których mogą korzystać modele AI. Aby jednak uniknąć wąskich gardeł, które spowalniają rozwój modelu, proces ten wymaga szybkiej, wydajnej i lokalnej pamięci masowej danych.
Sama ilość danych do trenowania AI stanowi poważne wyzwanie logistyczne. Przechowywanie i zarządzanie dużymi zestawami danych to nie tylko kwestia pojemności, ale również kosztów, zgodności i dostępności.
Oto kilka największych wyzwań w zakresie zarządzania danymi AI:
Tradycyjnie scentralizowana pamięć masowa konkuruje z rozproszonymi geograficznie źródłami danych. Coraz więcej specjalistów od sztucznej inteligencji wybiera lokalne rozwiązania pamięci masowej na brzegu sieci, które oferują większą kontrolę, niższe koszty i krótszą latencję.
Zamiast przesyłać ogromne zbiory danych do scentralizowanych serwerów w chmurze, organizacje mogą przetwarzać i przechowywać dane AI bliżej miejsca, w którym są generowane. Takie podejście – często nazywane przetwarzaniem na brzegu sieci – minimalizuje koszty przenoszenia danych, poprawiając jednocześnie wydajność.
Jednym z opłacalnych rozwiązań są małe, hybrydowe systemy NAS, które dostarczają lokalną wysokowydajną pamięć masową do obsługi obciążeń roboczych AI. W przeciwieństwie do tradycyjnych systemów NAS, systemy te integrują skonteneryzowane narzędzia AI, takie jak Jupyter Notebooks, umożliwiając ekspertom w danej dziedzinie i programistom AI współpracę bezpośrednio w systemie pamięci masowej. Eliminując potrzebę stałego przesyłania danych, te rozwiązania NAS zmniejszają koszty operacyjne, przyspieszając jednocześnie rozwój sztucznej inteligencji.
Przetwarzanie danych AI na brzegu sieci daje również organizacjom większą kontrolę nad zestawami danych. Suwerenność w zakresie danych treningowych AI gwarantuje zgodność z przepisami branżowymi i zmniejsza ryzyko związane z przechowywaniem tych danych w pamięci masowej podmiotów zewnętrznych. Takie podejście sprawia, że procesy produkcyjne wykorzystujące sztuczną inteligencję są wydajniejsze, przechowując dane blisko miejsca, w którym są gromadzone i analizowane.
Przetwarzanie danych na brzegu sieci oferuje wiele korzyści dla rozwoju sztucznej inteligencji:
Zbudowaliśmy trzywęzłowy klaster NAS i zmierzyliśmy wydajność jego pamięci masowej, aby zbadać możliwość obsługi obciążeń AI w zlokalizowanej pamięci masowej.
Najpierw zmierzyliśmy wydajność pojedynczego węzła, aby ustalić punkt odniesienia dla przepustowości. System oosiągnął 200 MB/s na łącze 2,5 GE do dużych transferów danych.
Następnie przeanalizowaliśmy wpływ wielowęzłowej replikacji na wydajność. Chociaż replikacja danych zwiększyła ruch w sieci, to jej wpływ na wydajność odczytu był minimalny, co jest dużą zaletą w przypadku obciążeń roboczych, które wymagają spójności danych w wielu węzłach.
Testy wydajności sieci wykazały, że dodanie drugiego łącza 2,5 GE przyniosło jedynie niewielkie korzyści w zapisie, natomiast sieci 10 GE poprawiły wydajność w wybranych przypadkach.
Aby przeprowadzić symulację procesów produkcyjnych wykorzystujących sztuczną inteligencję, przetestowaliśmy prawdziwe zadanie uczenia maszynowego za pomocą systemu NAS. Wytrenowaliśmy model klasyfikacji łodzi, korzystając z zestawu danych składającego się z 500 oznaczonych obrazów, przeprowadzając lokalną ekstrakcję cech i trening modelu.
Obrazy były przechowywane w zasobniku obiektowej pamięci masowej z etykietami metadanych, a następnie użyliśmy PyTorch Img2Vec aby wyodrębnić cechy z każdego obrazu, a następnie wyszkolić losowy klasyfikator. Uzyskany model osiągnął 78% dokładności w mniej niż minutę.
Oto kluczowe obserwacje z tego testu:
Eksperyment wykazał, że zlokalizowana pamięć NAS może służyć jako niedrogi koncentrator danych AI, zmniejszając zależność od usług w chmurze, przy jednoczesnej poprawie dostępności i wydajności.
Uwagi końcowe: Pamięć masowa wykorzystująca sztuczną inteligencję musi ewoluować
Przyszłość sztucznej inteligencji zależy od wydajnej, oszczędnej i skalowalnej pamięci masowej. Ze względu na stały wzrost ilości danych, organizacje muszą przemyśleć sposób przechowywania i zarządzania zestawami danych AI.
Zlokalizowane rozwiązania NAS zapewniają praktyczną alternatywę dla drogiej pamięci masowej w chmurze, pozwalając zespołom AI na:
Podobnie jak powietrze podtrzymuje życie, pamięć masowa danych wspiera innowacje w zakresie sztucznej inteligencji. Organizacje mogą zmaksymalizować swoje przełomowe osiągnięcia, jeśli będą mieć do dyspozycji bardziej dostępną, ekonomiczną i wydajną pamięć masową do obsługi sztucznej inteligencji.
Dlaczego dane są kluczowym aktywem gospodarki AI