Gegevens beveiligen: van vertrouwensbasis tot tracering van herkomst

Gegevens beveiligen

Kunstmatige intelligentie (AI), machinaal leren (ML) en cloudcomputing wijzigen het risicomodel van IT fundamenteel. Bedrijfsgegevens, die zich van oudsher bevonden op gecentraliseerde infrastructuur onder de fysieke controle van het bedrijf, worden nu vaak opgeslagen op andere locaties, zoals in de periferie of in de cloud. Het risicomodel verandert grondig bij gedistribueerde en composable (samenstelbare) infrastructuren. Daarom moet de architectuur voor gegevensorkestratie ook andere beveiligingsmaatregelen omvatten, zoals hardwaregebaseerde vertrouwensbasissen (roots of trust) en open beveiligingsoplossingen, om beveiliging te bieden die verder gaat dan de perimeters van een fysiek datacentrum.

"In de periferie omvat het risicomodel bijvoorbeeld ongeoorloofde fysieke toegang tot de apparatuur—mogelijk zelfs zonder dat iemand het ziet gebeuren", zegt Manuel Offenberg, een onderzoeker op het gebied van gegevensbeveiliging bij Seagate.

Gedistribueerde gegevens beschermen

Tegenwoordig worden bedrijfsgegevens opgeslagen in openbare en hybride clouds. Gegevens worden gegenereerd in, en verzonden vanuit, externe apparaten. Een bedrijf kan onmogelijk alle apparaten, netwerkapparatuur en andere gedistribueerde infrastructuur die het gebruikt, fysiek beveiligen.

Hierdoor gaat er meer aandacht uit naar de bescherming van de gegevens die in een gedistribueerde architectuur aanwezig zijn. Veel van de algemeen gebruikte beveiligingscontroles zijn zeer geschikt om de vertrouwelijkheid van gegevens te beschermen. Sterke versleuteling kan gegevens beschermen tijdens de overdracht en in rust. Andere cryptografische hulpmiddelen, zoals message digests, kunnen helpen de integriteit van gegevens te beschermen.

Maar nu het belang van AI en ML toeneemt, worden er ook steeds meer eisen gesteld aan de authenticiteit van gegevens.

Er bestaat al lang een alsmaar groeiend arsenaal aan hulpmiddelen om kwetsbaarheden in systemen en software uit te buiten, maar tegenwoordig buiten aanvallers onze systemen op een nieuwe manier uit: door onze ML/AI-systemen aan te vallen. Door de gegevens die deze systemen voeden te hacken, kunnen aanvallers misbruik maken van zwakke punten in ML/AI-technologieën voor kwaadaardige doeleinden.

Maar ML/AI kan ook helpen in de strijd tegen hackers. ML-algoritmen worden in veel gevallen gebruikt om kwaadaardig gedrag op te sporen. Neem bijvoorbeeld de sector van betaalkaarten, waar ML wordt toegepast om grote aantallen legitieme en frauduleuze transacties te analyseren. De gegevensmonsters die worden gebruikt om de algoritmen te trainen, kunnen bestaan uit talrijke kenmerken, zoals het type gekocht product, de plaats van de transactie, het aangerekende bedrag en specifieke kenmerken over de klant en de handelaar. Het ML-algoritme identificeert patronen in de gegevens die legitieme van frauduleuze transacties kunnen onderscheiden.

Bovendien worden ML-modellen, zoals Offenberg opmerkt, getraind met "artificieel of vijandig machinaal leren, een nieuwe manier om andere machinaal lerende systemen te trainen in het herkennen van potentiële aanvallen die wij als mens niet eens zouden kunnen bedenken".

Herkomst van gegevens wordt cruciaal

Stel nu dat een aanvaller toegang krijgt tot historische gegevens over betaalkaarttransacties en nieuwe gegevens wijzigt of injecteert, waardoor het algoritme sommige frauduleuze transacties als legitiem gaat beschouwen. Dit soort vergiftiging van trainingsgegevens kan moeilijk op te sporen zijn. In tegenstelling tot achterdeurtjes in de broncode van toepassingen, die kunnen worden opgespoord door middel van coderevisies en andere maatregelen, worden ML-modellen in kaart gebracht op manieren die voor mensen moeilijk, zo niet onmogelijk te begrijpen zijn wanneer ze die bestuderen. Dit geldt met name voor diepgaand leren (deep learning), waarbij modellen kunnen bestaan uit vele lagen en grote aantallen parameters die een complexe reeks berekeningen aansturen die leiden tot de beslissing of een transactie al dan niet legitiem is.

Door de herkomst van gegevens vast te stellen in combinatie met een veilige vertrouwensbasis kan een kader worden opgebouwd waarmee geknoei met de gegevens kan worden opgespoord voordat ze worden gebruikt, zoals in dit voorbeeld, voor het trainen van een model. "Dit soort aanvallen op ML/AI-gegevens zal een nieuwe generatie veiligheidsproblemen opleveren die we nog niet volledig begrijpen", zegt Offenberg.

De bescherming van gegevens begint met vertrouwensbasissen

De nieuwe klasse ML/AI-gegevensaanvallen kan worden ingeperkt door de hardwarebeveiliging te verbeteren met een vertrouwensbasis, de computerbewerkingen op de gegevens te beveiligen en de herkomst van gegevens gedurende de gehele levenscyclus van de gegevens te handhaven. Een vertrouwensbasis is een onvoorwaardelijk vertrouwd en fundamenteel beveiligingsonderdeel van een aangesloten apparaat. Het kan elke impliciet vertrouwde functie leveren die de rest van het systeem op betrouwbare wijze kan gebruiken om de veiligheid te garanderen.

Vertrouwensbasissen zijn beveiligde elementen die beveiligingsservices zoals opstartintegriteit van systemen en sterke versleuteling bieden aan het besturingssysteem en de toepassingen die op het systeem draaien. Het gebruik van een vertrouwensbasis verhoogt de veiligheid van het systeem en daarmee het vertrouwen in de door dat systeem opgeslagen en verwerkte gegevens. Wanneer gegevens zich door gedistribueerde systemen heen bewegen, kunnen vertrouwde componenten worden gebruikt om gegevens te beschermen, en kunnen services voor de herkomst van gegevens de bewerkingen op gegevens loggen vanaf het moment dat ze worden gegenereerd.

De combinatie van gedistribueerde infrastructuur met steeds complexere gebruikstoepassingen van gegevens onderstreept vandaag het belang van de herkomst van gegevens. "Als we weten hoe, wanneer en waar de gegevens zijn gegenereerd, en door wie of waardoor, kunnen we die gegevens nu bijhouden op een manier die garandeert dat deze gegevens niet zijn gemanipuleerd en dat we de oorsprong kennen", zegt Offenberg. "Als we infrastructuren bouwen op basis van het concept van veilige herkomst van gegevens, bereiken we een hoger niveau van vertrouwen in de gegevens die we verplaatsen en uiteindelijk ook consumeren."

Gegevens in beweging beheren

Elke strategie voor gegevensorkestratie moet een pijler voor de herkomst van gegevens bevatten die is gebaseerd op betrouwbare computingplatforms. Door het tijdstip waarop de gegevens zijn gecreëerd, de identiteit van de eigenaar van de gegevens en het apparaat waarmee de gegevens zijn gecreëerd, veilig te traceren, is het mogelijk veranderingen in de gegevens op te sporen. Dit vormt de basis voor de betrouwbaarheid van de gegevens.

Open beveiligingsoplossingen, zoals het OpenTitan-project, dat een referentieontwerp uitwerkt samen met integratierichtsnoeren voor silicium root of trust (RoT)-chips, maken deel uit van de oplossing. Andere opensource-tools, zoals OpenSSL, worden reeds op grote schaal gebruikt. Een nadeel van gedistribueerde architecturen is dat andere kwetsbaarheden kunnen worden geïntroduceerd wanneer de integratie niet goed wordt uitgevoerd. Evenzo kunnen zwakke punten worden geïntroduceerd door louter op de veiligheid van opensource-oplossingen te vertrouwen zonder de integratierichtsnoeren te begrijpen en te volgen. De Heartbleed-aanval op OpenSSL is een duidelijk voorbeeld van een kwetsbaarheid in een opensource-bibliotheek die ertoe leidde dat veel systemen plots kwetsbaar werden. Organisaties moeten voorzichtig en weloverwogen te werk gaan bij de integratie van opensource-projecten en daarbij bijzondere aandacht besteden aan beveiliging en potentiële kwetsbaarheden die kunnen ontstaan door de manier waarop toepassingen worden geïntegreerd.

AI- en ML-werkbelastingen zijn afhankelijk van grote hoeveelheden uiteenlopende gegevens. ML-beoefenaars moeten niet alleen de integriteit van gegevens beschermen, maar ook specifieke gegevens kunnen identificeren en extraheren uit grote gegevensbestanden. Dit stimuleert op zijn beurt de behoefte aan een geavanceerde vorm van registratie en beheer van metagegevens, waaronder de mogelijkheid om gegevensbronnen te taggen of te labelen.

Uiteindelijk kunnen gedistribueerde systemen niet vertrouwen op dezelfde veiligheidsmaatregelen die instonden voor de bescherming van datacenters in silo's. Uitgebreide beveiligingsprotocollen, met inbegrip van vertrouwensbasis en herkomst van gegevens, maken deel uit van de complexe reeks services die de levenscyclus van gegevens orkestreren, de integriteit van gegevens beschermen en ze op verzoek toegankelijk maken.

Ontdek meer over het beschermen van gegevens en het optimaliseren van het nut ervan met back-up- en hersteloplossingen van Seagate.