Overslaan en naar de inhoud gaan

‘De juiste kennis vind je niet met trefwoorden’

Hoe vindt de FBI uit tienduizenden tips juist die tip die naar een sluipschutter in Washington leidt, die inmiddels een dozijn slachtoffers heeft gemaakt? De zoeksoftware van het Nederlandse bedrijf Collexis had daarbij wellicht een handje kunnen helpen, ware het niet dat de dader ‘voortijdig’ gevonden werd. Maar voortaan gebruikt de FBI de software van Collexis om grote aantallen tips door te werken.
Carriere
Shutterstock
Shutterstock

Peter van Praag, directeur van Collexis, zegt het contract met de FBI maar ‘een kleine gebeurtenis’ te vinden, misschien ook omdat hij er niet al te vrij over kan praten. Maar er zijn volgens hem genoeg andere en mooiere voorbeelden te vinden van wat Collexis kan. Hoe vind ik een waardevolle tip, hoe vind ik relevante informatie, hoe vind ik een expert die meer weet over mijn probleem ­ het zijn voor Collexis zeer soortgelijke problemen. De software zoekt niet op basis van één of enkele zoektermen die een gebruiker doorgaans vrij arbitrair verzint, maar gebruikt hele documenten (artikelen, boeken, projectbeschrijvingen, webpagina’s) als uitgangspunt. Van het document dat als basis dient voor een zoekvraag maakt de software ­ in Collexis­taal ­ een ‘fingerprint’ (vingerafdruk). Daartoe wordt eerst uitgezocht in welke taal het document is opgesteld. Dan wordt de tekst ontdaan van stopwoorden en grammatica­eigenschappen die minder relevant zijn (vervoegingen, meervouden, et cetera). Ten slotte wordt er rekening gehouden met synoniemen en homoniemen (woorden met meer betekenissen). Thesaurus De resulterende fingerprints bestaan uit wat meta­informatie (met de herkomst van het document) en een rij woorden die als relevant zijn overgebleven, inclusief een wegingspercentage per woord. Cruciaal voor de werking van dit proces is de aanwezigheid van een ‘thesaurus’, een op een vakgebied toegespitst woordenboek waarmee de software kan zien of termen relevant zijn en hoe belangrijk ze zijn om soortgelijke informatie te vinden. Toen Collexis in 2000 begon, kwam Van Praag er al snel achter dat de term ‘thesaurus’ niet nieuw was. "Er blijken verschrikkelijk veel partijen bezig te zijn met het opbouwen daarvan. Dat was een blijde verrassing." Het eigenlijke zoekwerk vindt plaats door de fingerprint van het uitgangsdocument te vergelijken met de fingerprints van vooraf geïndexeerd materiaal. Dat kunnen databases met artikelen van een vakuitgeverijen zijn, maar ook een serie websites van concurrenten, waarmee een concurrentieanalyse mogelijk wordt. Collexis gebruikt de thesaurus van het National Institute of Health in de VS om te laten zien wat er met de technologie mogelijk is in de biomedische wetenschappen. In dat ‘woordenboek’ staan 1,6 miljoen termen in zeven talen, met informatie over de onderlinge hiërarchie van de termen. Voor het maken van een thesaurus blijft veel mensenwerk nodig. Volgens Van Praag is het niet moeilijk met de computer een eenvoudige thesaurus te genereren. "Met 1000 voorbeelddocumenten kan een computer zien dat er X maal ‘huishoudelijk apparaat’ in voorkomt en Y maal ‘koffiezetapparaat’, maar alleen de mens weet hoe die twee zich tot elkaar verhouden." Collexis heeft eigenlijk zijn oorsprong in de ontwikkelingssamenwerking. NWO en zijn Duitse tegenhanger GTZ financierden enkele jaren geleden een project dat moest leiden tot wereldwijd inzicht in welke geldverstrekker welk project steunt. Dat leidde tot het project www.shared.de. In de projectlanden zet men in gewone bewoordingen zijn bezigheden uiteen en stuurt die in Word­formaat naar een centraal punt. De software, ontwikkeld aan de Erasmus Universiteit in Rotterdam, bepaalt vervolgens zelf welk document bij welk project hoort. "Wij kregen bij toeval shared.de onder ogen en bij ons viel meteen het kwartje", zegt Van Praag. Hij stapte naar NWO en kreeg het recht de software commercieel te gebruiken, onder de voorwaarde deze te verbeteren en gratis ter beschikking te stellen aan de oorspronkelijke doelgroep. Ook gaat een deel van de toekomstige opbrengsten naar ontwikkelingsprojecten. Van Praag: "Het is een mooie vorm van privaat­publieke samenwerking". In 2000 werd Collexis opgericht en de oorspronkelijke ontwikkelaars van de Erasmus Universiteit kwamen vervolgens in dienst. Geen dienstverlener Collexis wordt gewoon een bedrijf dat leeft van de verkoop van licenties en onderhoudscontracten, stelt van Praag. Het is verleidelijk om als dienstverlener op te gaan treden, geeft hij toe, vooral ook omdat het bedrijf inmiddels thesauri en miljoenen fingerprints op meerdere vakgebieden heeft verzameld, vooral in de biomedische wetenschappen (16 miljoen fingerprints). "Maar dat blijft voor ons een etalage." In die sector heeft Colexis grote klanten, zoals de World Health Organization. Maar ook uitgeverijen zien mogelijkheden. Het Britse vaktijdschrift Nature verdient veel geld met het herverpakken van de kennis uit zijn artikelen en gebruikt Collexis om ou­ de jaargangen door te vlooien. Elsevier Science is bezig 80 miljoen fingerprints te maken van zijn wetenschappelijke artikelen. De software van Collexis is er vooral voor professionals. Van Praag: "Huisartsen worden geconfronteerd met patiënten die meer tijd hebben het internet af te zoeken dan zijzelf." Losse zoektermen zouden te vaak leiden tot het ‘one million hits syndrome’. En de FBI zou niet het verband leggen tussen ‘een auto reed hard door de straat’ en ‘er kwam een blauwe auto de hoek om’. Een spannend project vindt Van Praag de activiteiten op het gebied van ‘biosemantiek’ van de Erasmus Universiteit. "Met 16 miljoen fingerprints zie je welke woorden er vaak samen voorkomen. Bij paracetamol en hoofdpijn is dat geen verrassing, maar de Erasmus zoekt nu naar dingen die we nog niet wisten." Ook indirecte relaties tussen medische verschijnselen komen wellicht boven water met deze data­mining­achtige methode. "Voor wetenschappers is het bijblijven door het lezen van artikelen niet meer te doen, dus ze wenden zich tot dit soort dingen."

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in