Lepszy sposób na przechowywanie danych

Ciężar danych i jego wpływ na infrastrukturę pamięci masowej

Ciężar danych wpływa na całą infrastrukturę IT; powinien stanowić jeden z najważniejszych czynników, jakie są rozważane podczas planowania strategii zarządzania danymi.

Spis treści

Ciężar danych Ciężar danych Ciężar danych

Dane stanowią obecnie istotny zasób dla przedsiębiorstw na każdym poziomie – pod względem wartości fizycznej oraz intelektualnej. Stały wzrost ilości danych, zarówno ustrukturyzowanych, jak i nieustrukturyzowanych, będzie w nadchodzących latach nadal odbywał się z niespotykaną wcześniej szybkością. W tym czasie rozrastanie się danych – rosnący stopnień, w jakim dane biznesowe nie są już przechowywane w jednej lokalizacji, lecz są podzielone pomiędzy centrami danych oraz różnymi miejscami – zwiększa złożoność wyzwań związanych z zarządzaniem rosnącą ilością danych, ich przenoszeniem oraz aktywacją.

Przedsiębiorstwa muszą wdrożyć strategię wydajnego zarządzania ogromnymi ilościami danych w środowiskach w chmurze, na brzegu sieci oraz w punktach końcowych. Przy tym jeszcze ważniejsze niż wcześniej jest rozwijanie stałej i odpowiednio obliczonej strategii przy projektowaniu infrastruktury pamięci masowej danych w odpowiedniej skali.

To, co sprawdzało się w przypadku terabajtów, nie działa, jeśli chodzi o petabajty. W miarę jak przedsiębiorstwa starają się pokonać wyzwania związane z kosztami i złożonością przechowywania, przenoszenia i aktywowania danych w dużej skali, powinny również szukać bardziej oszczędnych rozwiązań, które są jednocześnie prostsze i mniej problematyczne – czyli rozwiązań, które charakteryzuje prostota, otwartość, brak ograniczeń i które zostały stworzone z myślą o rozproszonych i napędzanych przez dane przedsiębiorstwach. Lepszy sposób na przechowywanie danych

Koncepcja ciężaru danych stanowi ważny element, który należy rozważyć w ramach tych wysiłków.

Według nowego raportu IDC, sponsorowanego przez Seagate: Przygotowywanie pamięci masowej na wyzwania przyszłości: modernizacja infrastruktury pod kątem wzrostu ilości danych w ekosystemach hybrydowych, na brzegu sieci i w chmurze (Future-proofing Storage: Modernizing Infrastructure for Data Growth Across Hybrid, Edge and Cloud Ecosystems), w miarę rozwoju pamięci masowej powiązanej z ogromnymi zestawami danych, również ich siła ciążenia oddziałująca na inne elementy IT będzie rosła.

Ogólnie mówiąc, ciężar danych wynika z ich ilości oraz poziomu aktywacji. Podstawy fizyki zapewniają w tym miejscu odpowiednią analogię: ciało o większej masie ma większy wpływ grawitacyjny na ciała je otaczające. „Obciążenia robocze związane z największymi ilościami przechowywanych danych wywierają największy wpływ na swoje otoczenie, przyciągając aplikacje, usługi i inne zasoby infrastrukturalne w obszar swojej orbity”, informuje raport IDC.

Duży i aktywny zestaw danych będzie, z racji swojej złożoności i ważności, wpływał na lokalizację i sposób traktowania mniejszych zestawów danych, które wchodzą z nim w interakcje. Dlatego ciężar danych odzwierciedla dynamikę cyklu życia danych i zapewnia informacje do podejmowania decyzji związanych z architekturą IT.

Weźmy pod uwagę dwa zestawy danych: pierwszy wynosi 1 petabajt, a drugi 1 gigabajt. Aby zintegrować te dwa zestawy, bardziej wydajne będzie przeniesienie mniejszego zestawu danych do lokalizacji, w której znajduje się większy zestaw. W efekcie system pamięci masowej z zestawem o pojemności 1 petabajta będzie teraz przechowywał również zestaw o pojemności 1 gigabajta. Ponieważ duże zestawy danych będą „przyciągały” inne, mniejsze zestawy, duże zestawy będą gromadzić dane, dalej zwiększając swój ogólny ciężar.

Zarządzanie, analizowanie i aktywowanie danych polega również na aplikacjach i usługach, niezależnie od tego, czy są one zapewniane przez sprzedawców rozwiązań z zakresu chmury prywatnej, czy też publicznej lub przez lokalny zespół zajmujący się zarządzaniem danymi. Aplikacje zbierają i generują dane, jak również wykorzystują je, analizują i gromadzą – w ramach danych wykonywana jest duża ilość pracy. Co naturalne, im bardziej rozrastają się zestawy danych, tym trudniej jest z nich korzystać, chyba że znajdują się blisko aplikacji i usług, które pomagają w zarządzaniu i aktywowaniu danych. Dlatego aplikacje i usługi są często przenoszone w pobliże zestawów danych lub trzymane blisko nich. Od lokalnych centrów danych aż po chmurę publiczną i przetwarzanie na brzegu sieci – ciężar danych stanowi element, który wpływa na całą infrastrukturę IT.

Jednak według raportu IDC takie duże zestawy danych mogą przypominać czarne dziury, „przetrzymując przechowywane dane, aplikacje i usługi w jednej lokalizacji, chyba że środowiska IT zostaną zaprojektowane w taki sposób, aby umożliwiały migrację i zarządzanie przechowywanymi danymi, wraz z aplikacjami i usługami, które się na nich opierają, niezależnie od lokalizacji operacyjnej”.

Ponieważ ciężar danych może wpływać na całą infrastrukturę IT, powinien stanowić jeden z najważniejszych czynników projektowych, jakie są rozważane podczas planowania strategii zarządzania danymi. Według IDC ważnym celem w zakresie projektowania ekosystemu danych jest „dbanie o to, aby nawet pojedynczy zestaw danych nie wywierał niekontrolowanego wpływu na resztę ekosystemu IT i aplikacji”.

Zapewnianie aplikacjom dostępu do danych, niezależnie od lokalizacji

Strategia projektowania architektury IT powinna przenosić pamięć masową i ruch danych do centrum. Zaczyna się to od optymalizacji lokalizacji danych. Architektura skoncentrowana na danych zapewnia aplikacje, usługi i interakcje pomiędzy użytkownikami, które odbywają się bliżej miejsca przechowywania danych, zamiast polegania na czasochłonnych i często drogich transferach masowych ilości danych na duże odległości, z i do scentralizowanych dostawców usług.

IDC zauważa, że „jednym ze sposobów łagodzenia wpływu ciężaru danych jest dbanie o to, aby dane były przechowywane w tym samym miejscu co aplikacje, niezależnie od ich lokalizacji”.

Ten model można uzyskać poprzez wykorzystanie zlokalizowanych w tym samym miejscu centrów danych, które łączą większą ilość usług w chmurze prywatnej i publicznej oraz umożliwiają przedsiębiorstwom połączenie pamięci masowej danych z najlepszymi w swojej klasie rozwiązaniami do aplikacji, przetwarzania i zaspokajania potrzeb sieciowych.

Kluczowym celem architektury skoncentrowanej na danych jest zapewnianie ich dostępności. Dostępność zwiększa łatwość wykorzystania i płynność operacji na potoku danych, a dodatkowo może wpływać na przyszłe innowacje biznesowe, poprawiając możliwości danych w zakresie generowania metadanych i nowych zestawów danych, umożliwiając wyszukiwanie i odkrywanie danych, a także dodatkowo zapewniając naukowcom, zajmującym się danymi, możliwość wykorzystania wspomnianych danych pod kątem uczenia maszynowego i sztucznej inteligencji.

Poprzez umieszczenie danych w centrum architektury IT można również uzyskać pozytywny wpływ na optymalizację wydajności aplikacji, problemy z opóźnieniami w transferach, opłaty za dostęp i wyjście, a także na bezpieczeństwo i potrzeby związane z zapewnianiem zgodności z przepisami. Ogólna niezawodność i trwałość danych również stanowią ważną korzyść. Niezawodność oznacza możliwość dostępu do danych, kiedy są potrzebne, trwałość natomiast odnosi się do możliwości zachowywania danych przez wydłużony czas.

Umieszczanie danych w centrum strategii IT

Wszystkie wspomniane czynniki mają razem duży wpływ na planowanie zarządzania danymi w przedsiębiorstwie – począwszy od definiowania ogólnej strategii w zakresie IT, aż po formułowanie inicjatyw biznesowych. Planowanie niezbędnych obciążeń roboczych oraz zadań wpływa na ciężar danych. Kluczowe pytania, jakie należy sobie zadać, są następujące: jaka jest ilość danych, które są generowane i wykorzystywane? Jaka jest dystrybucja danych w centrum danych, chmurze prywatnej, chmurze publicznej, urządzeniach na brzegu sieci oraz biurach zdalnych i zlokalizowanych w różnych oddziałach? Jaka jest ulotność danych, które są przesyłane na przestrzeni całego ekosystemu IT? Zajęcie się tymi kwestiami zwiększy wydajność infrastruktury danych i może całkowicie zredukować kosztowne problemy wynikające z potoku danych.

IDC radzi w swoim raporcie: „Nie pozwalaj, aby pojedyncze obciążenia robocze lub lokalizacja operacyjna wpływały na przenoszenie pamięci masowej lub zasobów danych”. Ponieważ dane charakteryzują się ciężarem, infrastruktura danych musi być zaprojektowana w taki sposób, aby powstrzymywała ogromne zestawy danych lub duże, indywidualne obciążenia robocze przed wywieraniem dominującego wpływu na zasoby pamięci masowej. Architektura powinna w miarę potrzeb skutecznie umożliwiać przenoszenie pamięci masowej, operacji obliczeniowych lub zasobów aplikacji.

Oznacza to, że należy mieć świadomość, które zestawy danych są przenoszone w dane miejsca, jaka jest najbardziej wydajna ścieżka przenoszenia danych i co pomaga w najlepszej obsłudze tych obciążeń roboczych. Może to oznaczać również automatyzację ruchu danych, dzięki której można zmniejszyć koszty pamięci masowej i przenoszenia mniej wydajnych zestawów danych, które nie są natychmiast lub w aktywny sposób potrzebne. Zautomatyzowane zarządzanie metadanymi jest również warte rozważenia. Umożliwia przeszukiwanie magazynów danych, zwiększając ich dostępność.

Wykorzystanie tych kwestii w praktyce oznacza wdrożenie architektury danych, infrastruktury i procesów zarządzania, które są adaptacyjne. O ile obecnie organizacja może mieć dobry pomysł na rozwiązania związane z ciężarem danych, za pięć lat sytuacja może być już zupełnie inna.

„Nie każde przedsiębiorstwo zarządza wieloma, masywnymi zestawami danych, jednak wiele z nich ma już z tym do czynienia” – zauważa IDC w raporcie. „A biorąc pod uwagę tempo cyfryzacji przedsiębiorstw oraz to, jak istotna jest wartość danych korporacyjnych i gromadzenia danych, wiele organizacji w przyszłości będzie miało do czynienia z zarządzaniem dużymi zestawami danych”.

Ważne jest, aby każdy system zarządzania danymi mógł podlegać zmianom i spełniać nowe wymagania w zakresie danych. Zarządzanie danymi i architektura danych, która je wspiera, muszą się charakteryzować sprawnością i być w stanie adaptować się do zmian potrzeb biznesowych oraz powstających możliwości technicznych.

Dowiedz się więcej na temat hybrydowej architektury, przezwyciężania ograniczeń sieci oraz rosnącej złożoności zarządzania pamięcią masową w nowym, sponsorowanym przez Seagate raporcie od IDC: Przygotowywanie pamięci masowej na wyzwania przyszłości: modernizacja infrastruktury pod kątem wzrostu ilości danych w ekosystemach hybrydowych, na brzegu sieci i w chmurze (Future-proofing Storage: Modernizing Infrastructure for Data Growth Across Hybrid, Edge and Cloud Ecosystems)