Zwaartekracht van gegevens
De zwaartekracht van gegevens heeft gevolgen voor de gehele IT-infrastructuur; dit moet een belangrijke overweging zijn bij de planning van gegevensbeheerstrategieën.
Net als fysiek kapitaal en intellectuele eigendom zijn ook gegevens nu een essentieel activum voor bedrijven in elke sector. Met steeds grotere hoeveelheden gestructureerde en ongestructureerde gegevens zal de gegevensgroei de komende jaren in een ongekend tempo doorgaan. Ondertussen maakt de uitdijing van gegevens (de toenemende mate waarin bedrijfsgegevens zich niet langer op één locatie bevinden, maar verspreid zijn over datacenters en regio’s) het beheer van de groei, verplaatsing en activering van gegevens nog complexer.
Ondernemingen moeten een strategie implementeren om massagegevens efficiënt te beheren in cloud-, periferie- en eindpuntomgevingen. En het is belangrijker dan ooit om een bewuste en berekende strategie te ontwikkelen bij het ontwerpen van een infrastructuur voor gegevensopslag op schaal.
Wat voor terabytes werkte, werkt niet voor petabytes. Bedrijven die de kosten en complexiteit van het opslaan, verplaatsen en activeren van gegevens op schaal willen overwinnen, moeten streven naar betere rentabiliteit, minder wrijving en een eenvoudigere ervaring – eenvoudig, open, onbegrensd en gebouwd voor de gegevensgestuurde, gedistribueerde onderneming. Een nieuwe benadering van gegevens.
Het concept zwaartekracht van gegevens is een belangrijk element dat in deze inspanningen moet worden overwogen.
Volgens het nieuwe door Seagate gesponsorde rapport van IDC, Opslag klaarmaken voor de toekomst: modernisering van de infrastructuur voor gegevenstoename in hybride, perifere en cloudecosystemen, zal naarmate de opslag voor massale gegevenssets blijft groeien ook de zwaartekracht ervan op andere elementen in het IT-universum toenemen.
In het algemeen is de zwaartekracht van gegevens een gevolg van het volume en de mate van activering van de gegevens. De basisfysica biedt een geschikte analogie: een lichaam met een grotere massa heeft een groter gravitatie-effect op de lichamen die het omringen. “Werklasten met de grootste volumes aan opgeslagen gegevens vertonen de grootste massa in hun ‘universum’, waardoor toepassingen, services en andere infrastructuurbronnen in hun baan worden getrokken,” volgens het IDC-rapport.
Een grote en actieve gegevensset zal, door zijn complexiteit en belang, automatisch van invloed zijn op de plaats en behandeling van de kleinere gegevenssets die ermee in wisselwerking moeten staan. De zwaartekracht van gegevens weerspiegelt dus de dynamiek van de gegevenslevenscyclus, en moet helpen bij het nemen van beslissingen over de IT-architectuur.
Neem twee gegevenssets: de ene is 1 petabyte, de andere is 1 gigabyte. Om de twee sets te integreren, is het efficiënter om de kleinere gegevensset te verplaatsen naar de locatie van de grotere gegevensset. Hierdoor wordt in het opslagsysteem met de set van 1 petabyte nu ook de set van 1 gigabyte opgeslagen. Omdat grote gegevenssets andere, kleinere gegevenssets “aantrekken”, hebben grote databases de neiging om gegevens op te slorpen, waardoor de totale zwaartekracht van hun gegevens nog toeneemt.
Het beheren, analyseren en activeren van gegevens is ook afhankelijk van toepassingen en services, of die nu worden geleverd door een private- of openbarecloudleverancier of een on-premises team voor gegevensbeheer. Toepassingen verzamelen en genereren gegevens, maar consumeren, analyseren en aggregeren ze ook; er moet veel werk worden verricht met de gegevens. Uiteraard is het zo dat hoe massaler een gegevensverzameling wordt, hoe moeilijker het is om van die gegevens gebruik te maken, tenzij ze zich in de nabijheid bevinden van de toepassingen en services die helpen bij het beheren of activeren van de gegevens. Toepassingen en services worden dus vaak dicht bij de gegevenssets geplaatst of gehouden. Van on-premises datacenters tot openbare clouds en edge computing, de zwaartekracht van gegevens is een eigenschap die de gehele IT-infrastructuur omspant.
Volgens het IDC-rapport kunnen dergelijke enorme gegevenssets echter zoals zwarte gaten worden, “waarin opgeslagen gegevens, toepassingen en services op één locatie worden ingesloten, tenzij IT-omgevingen zo zijn ingericht dat ze migratie en beheer van opgeslagen gegevens mogelijk maken, samen met de toepassingen en services die ervan afhankelijk zijn, ongeacht de operationele locatie”.
Aangezien de zwaartekracht van gegevens gevolgen heeft voor de gehele IT-infrastructuur, moet dit een belangrijke ontwerpoverweging zijn bij de planning van gegevensbeheerstrategieën. Een belangrijk doel bij het ontwerp van een gegevensecosysteem is volgens IDC “ervoor te zorgen dat geen enkele gegevensset een oncontroleerbare kracht uitoefent op de rest van het ecosysteem van IT en toepassingen”.
In de strategie voor de IT-architectuur moeten massaopslag en gegevensverplaatsing centraal staan. Dit begint met het optimaliseren van de locatie van gegevens. Een gegevensgerichte architectuur brengt toepassingen, services en gebruikersinteractie dichter bij de locatie waar de gegevens zich bevinden, in plaats van te vertrouwen op tijdrovende en vaak dure langeafstandsoverdrachten van massagegevens naar en van gecentraliseerde serviceproviders.
IDC merkt op dat ”één manier om de impact van de zwaartekracht van gegevens te beperken is ervoor te zorgen dat opgeslagen gegevens in colocatie worden geplaatst met toepassingen, ongeacht de locatie”.
Dit model kan worden gerealiseerd door gebruik te maken van colocatie-datacenters waarin meerdere serviceproviders van private en openbare clouds zijn ondergebracht, zodat ondernemingen hun massagegevensopslag kunnen koppelen aan de beste oplossingen voor toepassingen, computing en netwerkbehoeften.
Het hoofddoel van een gegevensgerichte architectuur is de toegankelijkheid van gegevens. Toegankelijkheid verhoogt het gebruiksgemak en de vlotte werking van een gegevenspipeline en kan van invloed zijn op toekomstige bedrijfsinnovatie, doordat metagegevens en nieuwe gegevenssets beter kunnen worden gegenereerd, de gegevens kunnen worden doorzocht en geëvalueerd, en datawetenschappers die gegevens verder kunnen inzetten voor machinaal leren en AI.
Gegevens centraal stellen in de IT-architectuur kan echter ook een positieve invloed uitoefenen op de optimalisering van de prestaties van toepassingen, op kwesties als overdrachtslatentie, instap- en uitstapkosten, en op beveiligings- en nalevingsbehoeften. Ook de algemene betrouwbaarheid en duurzaamheid van de gegevens is een belangrijk voordeel. Betrouwbaarheid is het vermogen om toegang te krijgen tot gegevens wanneer dat nodig is, en duurzaamheid is het vermogen om gegevens gedurende langere perioden te bewaren.
Alles bij elkaar hebben deze overwegingen grote gevolgen voor de planning van het gegevensbeheer in bedrijven, van het bepalen van een algemene IT-strategie tot het formuleren van een bedrijfsinitiatief. Bij het plannen van de nodige werkbelasting en taken moet rekening worden gehouden met de zwaartekracht van gegevens. Belangrijke vragen die moeten worden gesteld, zijn onder meer: welk gegevensvolume wordt er gegenereerd of verbruikt? Hoe zijn de gegevens verdeeld over datacenters, private clouds, openbare clouds, perifere apparaten, en externe en bijkantoren? Met welke snelheid worden de gegevens in het hele IT-ecosysteem doorgegeven? Door deze overwegingen aan te pakken, wordt de gegevensinfrastructuur efficiënter en kunnen dure problemen met de gegevenspipeline in de toekomst worden beperkt.
IDC adviseert in zijn rapport: “Laat de verplaatsing van opslag of gegevensbronnen niet dicteren door één enkele werkbelasting of operationele locatie.” Omdat gegevens zwaartekracht hebben, moet de gegevensinfrastructuur zo worden ontworpen dat wordt voorkomen dat massale gegevenssets of grote individuele werkbelastingen een dominante zwaartekracht uitoefenen op opslagbronnen, met een architectuur die opslag, computing- of toepassingsbronnen efficiënt verplaatst naarmate dat nodig is.
Dit betekent dat we ons altijd bewust moeten blijven van welke gegevenssets waar naartoe worden getrokken, wat het meest efficiënte pad is om gegevens te verplaatsen, en wat die werkbelastingen het beste helpt te verwerken. Dit kan ook betekenen dat de verplaatsing van gegevens moet worden geautomatiseerd om de opslagkosten te drukken, of dat minder goed presterende gegevenssets die niet onmiddellijk of actief nodig zijn, worden verplaatst. Ook geautomatiseerd beheer van metagegevens is het overwegen waard. Hierdoor kunnen gegevens in gegevensopslagplaatsen worden doorzocht en geëvalueerd, waardoor gegevens toegankelijker worden.
Om die ideeën in praktijk te brengen, moeten de processen voor gegevensarchitectuur, -infrastructuur en -beheer die worden geïmplementeerd, adaptief zijn. Hoewel een organisatie vandaag misschien een goed idee heeft van wat haar overwegingen inzake de zwaartekracht van gegevens zijn, zullen die over vijf jaar misschien niet meer dezelfde zijn.
“Niet elke onderneming beheert meerdere massale gegevenssets, maar vele ondernemingen doen dat al wel,” merkt IDC op in het rapport. “En gezien het tempo van de digitalisering van het bedrijfsleven en het belang dat wordt gehecht aan de waarde van bedrijfsgegevens en het verzamelen van gegevens, zullen veel organisaties in de nabije toekomst enorme gegevenssets gaan beheren.”
Het is belangrijk dat elk gegevensbeheersysteem kan worden aangepast aan nieuwe gegevensvereisten. Gegevensbeheer en de ondersteunende gegevensarchitectuur moeten flexibel zijn en zich kunnen aanpassen aan veranderende bedrijfsbehoeften en opkomende technische mogelijkheden.
Meer informatie over hybride architectuur, het overwinnen van netwerkbeperkingen en de groeiende complexiteit van opslagbeheer vindt u in het nieuwe, door Seagate gesponsorde rapport van IDC, Opslag klaarmaken voor de toekomst: modernisering van de infrastructuur voor gegevenstoename in hybride, perifere en cloudecosystemen.