Ciężar danych
Ciężar danych wpływa na całą infrastrukturę IT; powinien stanowić jeden z najważniejszych czynników, jakie są rozważane podczas planowania strategii zarządzania danymi.
Dane stanowią obecnie istotny zasób dla przedsiębiorstw na każdym poziomie – pod względem wartości fizycznej oraz intelektualnej. Stały wzrost ilości danych, zarówno ustrukturyzowanych, jak i nieustrukturyzowanych, będzie w nadchodzących latach nadal odbywał się z niespotykaną wcześniej szybkością. W tym czasie rozrastanie się danych – rosnący stopnień, w jakim dane biznesowe nie są już przechowywane w jednej lokalizacji, lecz są podzielone pomiędzy centrami danych oraz różnymi miejscami – zwiększa złożoność wyzwań związanych z zarządzaniem rosnącą ilością danych, ich przenoszeniem oraz aktywacją.
Przedsiębiorstwa muszą wdrożyć strategię wydajnego zarządzania ogromnymi ilościami danych w środowiskach w chmurze, na brzegu sieci oraz w punktach końcowych. Przy tym jeszcze ważniejsze niż wcześniej jest rozwijanie stałej i odpowiednio obliczonej strategii przy projektowaniu infrastruktury pamięci masowej danych w odpowiedniej skali.
To, co sprawdzało się w przypadku terabajtów, nie działa, jeśli chodzi o petabajty. W miarę jak przedsiębiorstwa starają się pokonać wyzwania związane z kosztami i złożonością przechowywania, przenoszenia i aktywowania danych w dużej skali, powinny również szukać bardziej oszczędnych rozwiązań, które są jednocześnie prostsze i mniej problematyczne – czyli rozwiązań, które charakteryzuje prostota, otwartość, brak ograniczeń i które zostały stworzone z myślą o rozproszonych i napędzanych przez dane przedsiębiorstwach. Lepszy sposób na przechowywanie danych
Koncepcja ciężaru danych stanowi ważny element, który należy rozważyć w ramach tych wysiłków.
Według nowego raportu IDC, sponsorowanego przez Seagate: Przygotowywanie pamięci masowej na wyzwania przyszłości: modernizacja infrastruktury pod kątem wzrostu ilości danych w ekosystemach hybrydowych, na brzegu sieci i w chmurze (Future-proofing Storage: Modernizing Infrastructure for Data Growth Across Hybrid, Edge and Cloud Ecosystems), w miarę rozwoju pamięci masowej powiązanej z ogromnymi zestawami danych, również ich siła ciążenia oddziałująca na inne elementy IT będzie rosła.
Ogólnie mówiąc, ciężar danych wynika z ich ilości oraz poziomu aktywacji. Podstawy fizyki zapewniają w tym miejscu odpowiednią analogię: ciało o większej masie ma większy wpływ grawitacyjny na ciała je otaczające. „Obciążenia robocze związane z największymi ilościami przechowywanych danych wywierają największy wpływ na swoje otoczenie, przyciągając aplikacje, usługi i inne zasoby infrastrukturalne w obszar swojej orbity”, informuje raport IDC.
Duży i aktywny zestaw danych będzie, z racji swojej złożoności i ważności, wpływał na lokalizację i sposób traktowania mniejszych zestawów danych, które wchodzą z nim w interakcje. Dlatego ciężar danych odzwierciedla dynamikę cyklu życia danych i zapewnia informacje do podejmowania decyzji związanych z architekturą IT.
Weźmy pod uwagę dwa zestawy danych: pierwszy wynosi 1 petabajt, a drugi 1 gigabajt. Aby zintegrować te dwa zestawy, bardziej wydajne będzie przeniesienie mniejszego zestawu danych do lokalizacji, w której znajduje się większy zestaw. W efekcie system pamięci masowej z zestawem o pojemności 1 petabajta będzie teraz przechowywał również zestaw o pojemności 1 gigabajta. Ponieważ duże zestawy danych będą „przyciągały” inne, mniejsze zestawy, duże zestawy będą gromadzić dane, dalej zwiększając swój ogólny ciężar.
Zarządzanie, analizowanie i aktywowanie danych polega również na aplikacjach i usługach, niezależnie od tego, czy są one zapewniane przez sprzedawców rozwiązań z zakresu chmury prywatnej, czy też publicznej lub przez lokalny zespół zajmujący się zarządzaniem danymi. Aplikacje zbierają i generują dane, jak również wykorzystują je, analizują i gromadzą – w ramach danych wykonywana jest duża ilość pracy. Co naturalne, im bardziej rozrastają się zestawy danych, tym trudniej jest z nich korzystać, chyba że znajdują się blisko aplikacji i usług, które pomagają w zarządzaniu i aktywowaniu danych. Dlatego aplikacje i usługi są często przenoszone w pobliże zestawów danych lub trzymane blisko nich. Od lokalnych centrów danych aż po chmurę publiczną i przetwarzanie na brzegu sieci – ciężar danych stanowi element, który wpływa na całą infrastrukturę IT.
Jednak według raportu IDC takie duże zestawy danych mogą przypominać czarne dziury, „przetrzymując przechowywane dane, aplikacje i usługi w jednej lokalizacji, chyba że środowiska IT zostaną zaprojektowane w taki sposób, aby umożliwiały migrację i zarządzanie przechowywanymi danymi, wraz z aplikacjami i usługami, które się na nich opierają, niezależnie od lokalizacji operacyjnej”.
Ponieważ ciężar danych może wpływać na całą infrastrukturę IT, powinien stanowić jeden z najważniejszych czynników projektowych, jakie są rozważane podczas planowania strategii zarządzania danymi. Według IDC ważnym celem w zakresie projektowania ekosystemu danych jest „dbanie o to, aby nawet pojedynczy zestaw danych nie wywierał niekontrolowanego wpływu na resztę ekosystemu IT i aplikacji”.
Strategia projektowania architektury IT powinna przenosić pamięć masową i ruch danych do centrum. Zaczyna się to od optymalizacji lokalizacji danych. Architektura skoncentrowana na danych zapewnia aplikacje, usługi i interakcje pomiędzy użytkownikami, które odbywają się bliżej miejsca przechowywania danych, zamiast polegania na czasochłonnych i często drogich transferach masowych ilości danych na duże odległości, z i do scentralizowanych dostawców usług.
IDC zauważa, że „jednym ze sposobów łagodzenia wpływu ciężaru danych jest dbanie o to, aby dane były przechowywane w tym samym miejscu co aplikacje, niezależnie od ich lokalizacji”.
Ten model można uzyskać poprzez wykorzystanie zlokalizowanych w tym samym miejscu centrów danych, które łączą większą ilość usług w chmurze prywatnej i publicznej oraz umożliwiają przedsiębiorstwom połączenie pamięci masowej danych z najlepszymi w swojej klasie rozwiązaniami do aplikacji, przetwarzania i zaspokajania potrzeb sieciowych.
Kluczowym celem architektury skoncentrowanej na danych jest zapewnianie ich dostępności. Dostępność zwiększa łatwość wykorzystania i płynność operacji na potoku danych, a dodatkowo może wpływać na przyszłe innowacje biznesowe, poprawiając możliwości danych w zakresie generowania metadanych i nowych zestawów danych, umożliwiając wyszukiwanie i odkrywanie danych, a także dodatkowo zapewniając naukowcom, zajmującym się danymi, możliwość wykorzystania wspomnianych danych pod kątem uczenia maszynowego i sztucznej inteligencji.
Poprzez umieszczenie danych w centrum architektury IT można również uzyskać pozytywny wpływ na optymalizację wydajności aplikacji, problemy z opóźnieniami w transferach, opłaty za dostęp i wyjście, a także na bezpieczeństwo i potrzeby związane z zapewnianiem zgodności z przepisami. Ogólna niezawodność i trwałość danych również stanowią ważną korzyść. Niezawodność oznacza możliwość dostępu do danych, kiedy są potrzebne, trwałość natomiast odnosi się do możliwości zachowywania danych przez wydłużony czas.
Wszystkie wspomniane czynniki mają razem duży wpływ na planowanie zarządzania danymi w przedsiębiorstwie – począwszy od definiowania ogólnej strategii w zakresie IT, aż po formułowanie inicjatyw biznesowych. Planowanie niezbędnych obciążeń roboczych oraz zadań wpływa na ciężar danych. Kluczowe pytania, jakie należy sobie zadać, są następujące: jaka jest ilość danych, które są generowane i wykorzystywane? Jaka jest dystrybucja danych w centrum danych, chmurze prywatnej, chmurze publicznej, urządzeniach na brzegu sieci oraz biurach zdalnych i zlokalizowanych w różnych oddziałach? Jaka jest ulotność danych, które są przesyłane na przestrzeni całego ekosystemu IT? Zajęcie się tymi kwestiami zwiększy wydajność infrastruktury danych i może całkowicie zredukować kosztowne problemy wynikające z potoku danych.
IDC radzi w swoim raporcie: „Nie pozwalaj, aby pojedyncze obciążenia robocze lub lokalizacja operacyjna wpływały na przenoszenie pamięci masowej lub zasobów danych”. Ponieważ dane charakteryzują się ciężarem, infrastruktura danych musi być zaprojektowana w taki sposób, aby powstrzymywała ogromne zestawy danych lub duże, indywidualne obciążenia robocze przed wywieraniem dominującego wpływu na zasoby pamięci masowej. Architektura powinna w miarę potrzeb skutecznie umożliwiać przenoszenie pamięci masowej, operacji obliczeniowych lub zasobów aplikacji.
Oznacza to, że należy mieć świadomość, które zestawy danych są przenoszone w dane miejsca, jaka jest najbardziej wydajna ścieżka przenoszenia danych i co pomaga w najlepszej obsłudze tych obciążeń roboczych. Może to oznaczać również automatyzację ruchu danych, dzięki której można zmniejszyć koszty pamięci masowej i przenoszenia mniej wydajnych zestawów danych, które nie są natychmiast lub w aktywny sposób potrzebne. Zautomatyzowane zarządzanie metadanymi jest również warte rozważenia. Umożliwia przeszukiwanie magazynów danych, zwiększając ich dostępność.
Wykorzystanie tych kwestii w praktyce oznacza wdrożenie architektury danych, infrastruktury i procesów zarządzania, które są adaptacyjne. O ile obecnie organizacja może mieć dobry pomysł na rozwiązania związane z ciężarem danych, za pięć lat sytuacja może być już zupełnie inna.
„Nie każde przedsiębiorstwo zarządza wieloma, masywnymi zestawami danych, jednak wiele z nich ma już z tym do czynienia” – zauważa IDC w raporcie. „A biorąc pod uwagę tempo cyfryzacji przedsiębiorstw oraz to, jak istotna jest wartość danych korporacyjnych i gromadzenia danych, wiele organizacji w przyszłości będzie miało do czynienia z zarządzaniem dużymi zestawami danych”.
Ważne jest, aby każdy system zarządzania danymi mógł podlegać zmianom i spełniać nowe wymagania w zakresie danych. Zarządzanie danymi i architektura danych, która je wspiera, muszą się charakteryzować sprawnością i być w stanie adaptować się do zmian potrzeb biznesowych oraz powstających możliwości technicznych.
Dowiedz się więcej na temat hybrydowej architektury, przezwyciężania ograniczeń sieci oraz rosnącej złożoności zarządzania pamięcią masową w nowym, sponsorowanym przez Seagate raporcie od IDC: Przygotowywanie pamięci masowej na wyzwania przyszłości: modernizacja infrastruktury pod kątem wzrostu ilości danych w ekosystemach hybrydowych, na brzegu sieci i w chmurze (Future-proofing Storage: Modernizing Infrastructure for Data Growth Across Hybrid, Edge and Cloud Ecosystems)