Bijstandsfraude wordt voorspeld met algoritmes
De regionale sociale dienst Lekstroom in Utrecht, de Zeeuwse sociale dienst Orionis en de gemeente Nissewaard in Zuid-Holland hebben Big Data en machine learning ingeschakeld om bijstandsfraude op te sporen. Het ingezette algoritme kan een paar honderd variabelen bekijken over een periode van 25 jaar, iets waarvoor een mens niet is toegerust en wat ook teveel geld zou kosten. Volgens de NRC kan fraude zelfs in de helft van de gevallen die het algoritme aanwijst ook daadwerkelijk worden aangetoond.
Je nieuwe auto op Instagram
De algoritmes zijn ontwikkeld door Totta in samenwerking met de stichting Stimulansz. Eerstgenoemde zet zijn Datalab ook in om leerlingen te ondersteunen bij de schoolkeuze en om bedrijven te helpen met klantenbehoud. De stichting heeft in dit nieuwe project voor voorspelling van bijstandsfraude geadviseerd over gemeentelijke werkprocessen.
Naast de eigen gegevens van de sociale dienst krijgt het algoritme ook data van de Belastingdienst, het kadaster en RDW. Deze gegevens mogen al door de sociale recherche worden gebruikt. Foto's van sociale media bijvoorbeeld kunnen niet worden ingezet. Jesse Luk, een van de oprichters van het Datalab: "De gegevens moeten verzameld zijn met het doel de rechtmatigheid van de uitkering te controleren, en dat kan bijvoorbeeld wel zijn het vermogen van iemand, maar data van bijvoorbeeld Facebook mogen we niet op geautomatiseerde basis meenemen."
Profileren
De wet schrijft voor dat je geen geautomatiseerde beslissing mag nemen als er een rechtsgevolg is of iemand in ernstige mate kan worden getroffen, dus daar moet de sociale recherche nog tussen zitten. "Niet iedereen die we een hoog risico meegeven, fraudeert ook. Het idee is dat je nauwkeuriger bent dan de rechercheurs zelf, die bijvoorbeeld afgaan op tips vanuit de wijk, zodat je minder mensen stoort die zich wel aan de wet houden," aldus Luk. Rechercheurs gaan vaak af op hun ervaring. "Een menselijk brein kan maar een beperkt aantal waarnemingen aan. Je kijkt bijvoorbeeld alleen naar hoe iemand eruit ziet of wie een bepaalde auto heeft."
Onzekere data
Luk: "Je hebt onderzoeken gedaan waarbij je fraude hebt geconstateerd, maar je hebt ook onderzoeken waarbij je geen fraude hebt geconstateerd, maar dan weet je eigenlijk nog steeds niet helemaal zeker of er niet gefraudeerd is. En je hebt een bak waar nooit onderzoek naar gedaan is en dan weet je niet of er wel of geen fraude is geweest."
"Wel of niet frauderen kun je dus niet zo hard tegen elkaar afzetten. Daar komt bij dat het percentage fraudeurs ten opzichte van het geheel vaak heel klein is. Je hebt dus maar een kleine set met geannoteerde data waar je je algoritme op kan baseren."
Reconstruction-based anomaly detection
Het algoritme werkt met een unsupervised neuraal netwerk, wat betekent dat je het niet vertelt welke gegevens afkomstig zijn van fraudeurs. In een proces dat reconstruction-based anomaly detection heet wordt de dataset gecomprimeerd en dan weer hersteld; gegevens met een grote reconstruction error zijn dan de uitbijters.
Bart Lammers, data scientist bij Totta: "We laten het netwerk kijken wie er afwijkt van het patroon dat het denkt te vinden, en nemen aan dat dat een indicatie is van fraude. De gevallen met de grootste kans kunnen dan het eerst gecontroleerd worden." Het model wordt daarvoor nog wel aangevuld met een supervised stap, waarin de data zijn gemodelleerd van bekende fraudegevallen.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee