Fuzzy logic verlicht sorteren kerstpost
Het sorteersysteem van TPG Post bestond tot twee weken terug uit een batterij adreslezers die via ‘optical character recognition’ (OCR) op zoek gaan naar de postcode of - als die niet leesbaar of afwezig is - het adres, dat dan vergeleken wordt met een grote adressendatabase. Voor verreweg de meeste van de ruim 20 miljoen poststukken die dagelijks de sorteermachines passeren levert dat voldoende zekerheid op om er de oranje streepjescode op af te drukken die de sorteermachine aanstuurt. Van een paar procent van de poststukken wordt het adres door deze batterij niet herkend. Met een deel van die ‘onleesbare’ adressen weet het Amsterdamse TextKernel alsnog raad. Vorige week is de software na een tijdje schaduwtesten in alle zes sorteercentra van TPG Post ingevoerd. "Wij kunnen de OCR-gegevens via fuzzy database matching afzetten tegen het bestand met alle adressen in Nederland", legt Gerard Mulder van TextKernel uit. De software heeft aan een paar door het OCR-systeem juist geïdentificeerde letters uit de straatnaam, één cijfer uit de postcode en wederom een paar letters uit de plaatsnaam genoeg om een aantal opties uit de database te selecteren, waaruit na een serie validatieslagen de juiste wordt gekozen. Via statistische patroonherkenning wordt pas op het laatste moment bepaald welk deel van de OCR-string de naam, het adres, de postcode en de plaatsnaam is. Zo wordt bijvoorbeeld uit de reeks ‘P.O OBOX m22 mKoRKRADE’ toch ‘Postbus 3022, 6460 HA Kerkrade’ gedestilleerd. "Van de onleesbare stukken lezen wij op deze manier nog eens 15 procent, met een half procent fouten." Mulder stelt dat de software met een iets hoger foutenpercentage een leesscore van 40 procent zou kunnen halen, maar daar wil TPG Post niet aan. De restanten worden door medewerkers via videoschermen bekeken.