Big data: Denk eens aan data wissen
Data hebben een essentiële rol gekregen in het functioneren van organisaties. Met interne data uit bedrijfsprocessen en met gegevens die uit externe bronnen zijn verkregen is het mogelijk beslissingen beter te onderbouwen. Maar welke data zijn het waard om langere tijd te bewaren? In veel organisaties bestaat voorzichtigheid of misschien zelfs angst om gegevens te wissen. Je weet immers nooit of data die nu nog minder interessant lijken, binnen afzienbare termijn de sleutel tot het oplossen van belangrijke vraagstukken leveren. Ook kent iedereen de situatie dat bij het opruimen toch per ongeluk essentiële bestanden zijn verwijderd.
Maar hoewel data bewaren met de komst van cloudaanbieders en moderne opslagtechnieken veel goedkoper is geworden, is het zeker niet gratis. Met de enorme groei van het opgeslagen datavolume - volgens Statista groeit dit van 97 ZB in 2022 naar 181 ZB in 2025 - kan het een aanzienlijke kostenpost worden.
Weten welke data verantwoord gewist kunnen worden, begint bij weten welke data in de organisatie aanwezig zijn. Uit een onderzoek van Splunk uit 2020 blijkt dat bij 60% van de organisaties meer dan de helft van de data die ze bewaren, onder de noemer 'dark data' valt, ofwel het is onbekend wat de waarde is van die gegevens. Naar schatting is 30% van alle gegevens die organisaties bewaren ROT, de afkorting van redundant, verouderd (obsolete) of onbelangrijk (trivial), stelt Kumar Goswami, CEO en medeoprichter van Komprise bij Venturebeat.
Om de tafel
Essentieel bij het in kaart brengen van wat werkelijk waardevolle data zijn, of kunnen worden, is het opzetten van een goed doordacht datamanagementbeleid. Daarvoor moeten IT, het hoger management en de bedrijfsafdelingen om de tafel om te bepalen welke gegevens cruciaal zijn, welke vanuit regelgeving bewaard moeten blijven en wat de kosten zijn van het langdurig opslaan. Vervolgens zijn hulpmiddelen nodig om automatisch een inventarisatie te maken van de beschikbare data en daar ordening in aan te brengen. Kunstmatige intelligentie kan tegenwoordig heel behulpzaam zijn in het onderscheiden van datatypes zoals interim data, data die gebruikt worden en gegevens die al lange tijd niet meer tevoorschijn zijn gehaald.
Zo kan op een goed onderbouwde manier begonnen worden met het plaatsen van de gegevens in de meest efficiënte opslag: van primaire opslag naar tweede of derdelijns opslag, het inschakelen van cloud of archiveringssystemen en natuurlijk het selectief wissen van data. Daarbij moet er in het datamanagementbeleid rekening mee gehouden worden dat ook het wissen van data niet gratis is. Net als het opslaan en verplaatsen van gegevens, kost het wissen van grote hoeveelheden data processorkracht.
Belangrijk bij het implementeren van het datamanagementbeleid is een goede communicatie met alle lagen in de organisatie zodat duidelijk is welke kosten/baten-afwegingen gemaakt worden ten aanzien van het bewaren van gegevens. Ook moet voor de betrokkenen inzichtelijk zijn op welk moment gegevens 'verlopen' en doet IT er goed aan een 'prullenbak' in te richten waaruit de gegevens een periode nog terug te halen zijn, voor ze definitief worden verwijderd.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee