Overslaan en naar de inhoud gaan

Durf datakwaliteit een rapportcijfer te geven

‘Data is het nieuwe goud’. Een uitdrukking die we al zo vaak hebben gehoord, dat hij bijna zijn glans verliest. Maar wat maakt data precies tot dat beloofde goud? In ieder geval niet die groeiende berg aan losse datasets. Het zit ‘m in de match, de combinatie van data. Pas dan krijg je waardevolle inzichten. Alleen door de hoeveelheid data en snelheid van integratie staat de datakwaliteit op de tocht.
cijfers
© CC0 - Pixabay
CC0 - Pixabay

Een risico dat groeit als je bronbestanden van externe partijen gebruikt of op de markt inkoopt, omdat je dan ook nog eens te weinig grip hebt op de externe bron.

Een paar voorbeelden. Volgens de KLIC-melding bij het Kadaster liggen er op een bepaalde plek geen kabels. Maar de eerste laag zand is nog niet aan de kant of de contouren van leidingen verschijnen. De bron ligt bovendien niet bij het Kadaster, maar bij de gemeente die de brondata heeft aangeleverd. Nog een voorbeeld, een controle op het juist gebruik van gebouwen.

Grote gemeentes schakelen hiervoor een partij in die data van Google Streetview vergelijkt met persoonsgegevens. Juist die combinatie vergemakkelijkt de zoektocht naar illegale huurders. Maar het laat zich raden als de gemeente alléén deze bron vertrouwt om te besluiten tot ontruiming…

Beleid voor datakwaliteit

Nog te vaak bepalen organisaties datakwaliteit op basis van intuïtie, het onderbuikgevoel. Maar onbetrouwbare data zijn een slechte raadgever. Ze zorgen voor verkeerde beslissingen, wankele prognoses en zelfs reputatieschade.

Daarom pleit ik voor beleid op datakwaliteit, zeker bij externe bronnen. Om goed beleid op datakwaliteit op te bouwen zijn deze vijf vragen een sterk startpunt:

  1. Waarom willen we deze informatie? Dit antwoord biedt focus, voorkomt verzameldrift en werkt kostenbesparend.
  2. Welke eisen komen er op het ‘boodschappenlijstje’? Hoe specifieker, hoe beter. Van de soort data, definities en het niveau tot de coderingen. Ook de kwaliteitseisen neem je hierbij op.  
  3. Is er een autoratieve bron mogelijk? Een gezaghebbende bron in de markt; de single source of truth voor specifieke data-elementen. Denk aan het CBS of BAG (Basisregistratie Adressen en Gebouwen). Ga daar het liefst vanuit. En werk eventueel met de externe bronleverancier samen om datakwaliteit te verbeteren.
  4. Hoe ontsluiten en integreren we de nieuwe data met onze bestaande data? Een nieuw, vergelijkend bronbestand is vaak moeilijk te integreren met bestaande data. Een kraamkamer kan dan uitkomst bieden. Zo’n kraamkamer kunt u zien als de klusschuur in uw tuin. Voordat de nieuwe data structureel in het datawarehouse worden ingenomen, analyseert u in de kraamkamer óf de data ingenomen kunnen worden. En zo ja, hoe de integratie moet plaatsvinden.
  1. Hoe labelen we de datakwaliteit? De datakwaliteit van een externe bron is nooit gegarandeerd, ook niet bij een autoratieve. Daarom zijn wij voorstanders van een rapportcijfer, een ‘kwaliteitslabel’ – iets wat we nog amper zien, maar in één oogopslag de betrouwbaarheid van de data demonstreert. Vergelijk het met de assurance die een accountant aan de jaarcijfers geeft. Alleen treedt hier de data steward op als ‘gatekeeper’ van de kwaliteit. Heb je ondanks alles toch data van mindere kwaliteit? Wees er transparant over naar je organisatie én gebruikers, want dat levert meer weloverwogen beslissingen op.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in