‘De juiste kennis vind je niet met trefwoorden’
Peter van Praag, directeur van Collexis, zegt het contract met de FBI maar ‘een kleine gebeurtenis’ te vinden, misschien ook omdat hij er niet al te vrij over kan praten. Maar er zijn volgens hem genoeg andere en mooiere voorbeelden te vinden van wat Collexis kan. Hoe vind ik een waardevolle tip, hoe vind ik relevante informatie, hoe vind ik een expert die meer weet over mijn probleem het zijn voor Collexis zeer soortgelijke problemen. De software zoekt niet op basis van één of enkele zoektermen die een gebruiker doorgaans vrij arbitrair verzint, maar gebruikt hele documenten (artikelen, boeken, projectbeschrijvingen, webpagina’s) als uitgangspunt. Van het document dat als basis dient voor een zoekvraag maakt de software in Collexistaal een ‘fingerprint’ (vingerafdruk). Daartoe wordt eerst uitgezocht in welke taal het document is opgesteld. Dan wordt de tekst ontdaan van stopwoorden en grammaticaeigenschappen die minder relevant zijn (vervoegingen, meervouden, et cetera). Ten slotte wordt er rekening gehouden met synoniemen en homoniemen (woorden met meer betekenissen). Thesaurus De resulterende fingerprints bestaan uit wat metainformatie (met de herkomst van het document) en een rij woorden die als relevant zijn overgebleven, inclusief een wegingspercentage per woord. Cruciaal voor de werking van dit proces is de aanwezigheid van een ‘thesaurus’, een op een vakgebied toegespitst woordenboek waarmee de software kan zien of termen relevant zijn en hoe belangrijk ze zijn om soortgelijke informatie te vinden. Toen Collexis in 2000 begon, kwam Van Praag er al snel achter dat de term ‘thesaurus’ niet nieuw was. "Er blijken verschrikkelijk veel partijen bezig te zijn met het opbouwen daarvan. Dat was een blijde verrassing." Het eigenlijke zoekwerk vindt plaats door de fingerprint van het uitgangsdocument te vergelijken met de fingerprints van vooraf geïndexeerd materiaal. Dat kunnen databases met artikelen van een vakuitgeverijen zijn, maar ook een serie websites van concurrenten, waarmee een concurrentieanalyse mogelijk wordt. Collexis gebruikt de thesaurus van het National Institute of Health in de VS om te laten zien wat er met de technologie mogelijk is in de biomedische wetenschappen. In dat ‘woordenboek’ staan 1,6 miljoen termen in zeven talen, met informatie over de onderlinge hiërarchie van de termen. Voor het maken van een thesaurus blijft veel mensenwerk nodig. Volgens Van Praag is het niet moeilijk met de computer een eenvoudige thesaurus te genereren. "Met 1000 voorbeelddocumenten kan een computer zien dat er X maal ‘huishoudelijk apparaat’ in voorkomt en Y maal ‘koffiezetapparaat’, maar alleen de mens weet hoe die twee zich tot elkaar verhouden." Collexis heeft eigenlijk zijn oorsprong in de ontwikkelingssamenwerking. NWO en zijn Duitse tegenhanger GTZ financierden enkele jaren geleden een project dat moest leiden tot wereldwijd inzicht in welke geldverstrekker welk project steunt. Dat leidde tot het project www.shared.de. In de projectlanden zet men in gewone bewoordingen zijn bezigheden uiteen en stuurt die in Wordformaat naar een centraal punt. De software, ontwikkeld aan de Erasmus Universiteit in Rotterdam, bepaalt vervolgens zelf welk document bij welk project hoort. "Wij kregen bij toeval shared.de onder ogen en bij ons viel meteen het kwartje", zegt Van Praag. Hij stapte naar NWO en kreeg het recht de software commercieel te gebruiken, onder de voorwaarde deze te verbeteren en gratis ter beschikking te stellen aan de oorspronkelijke doelgroep. Ook gaat een deel van de toekomstige opbrengsten naar ontwikkelingsprojecten. Van Praag: "Het is een mooie vorm van privaatpublieke samenwerking". In 2000 werd Collexis opgericht en de oorspronkelijke ontwikkelaars van de Erasmus Universiteit kwamen vervolgens in dienst. Geen dienstverlener Collexis wordt gewoon een bedrijf dat leeft van de verkoop van licenties en onderhoudscontracten, stelt van Praag. Het is verleidelijk om als dienstverlener op te gaan treden, geeft hij toe, vooral ook omdat het bedrijf inmiddels thesauri en miljoenen fingerprints op meerdere vakgebieden heeft verzameld, vooral in de biomedische wetenschappen (16 miljoen fingerprints). "Maar dat blijft voor ons een etalage." In die sector heeft Colexis grote klanten, zoals de World Health Organization. Maar ook uitgeverijen zien mogelijkheden. Het Britse vaktijdschrift Nature verdient veel geld met het herverpakken van de kennis uit zijn artikelen en gebruikt Collexis om ou de jaargangen door te vlooien. Elsevier Science is bezig 80 miljoen fingerprints te maken van zijn wetenschappelijke artikelen. De software van Collexis is er vooral voor professionals. Van Praag: "Huisartsen worden geconfronteerd met patiënten die meer tijd hebben het internet af te zoeken dan zijzelf." Losse zoektermen zouden te vaak leiden tot het ‘one million hits syndrome’. En de FBI zou niet het verband leggen tussen ‘een auto reed hard door de straat’ en ‘er kwam een blauwe auto de hoek om’. Een spannend project vindt Van Praag de activiteiten op het gebied van ‘biosemantiek’ van de Erasmus Universiteit. "Met 16 miljoen fingerprints zie je welke woorden er vaak samen voorkomen. Bij paracetamol en hoofdpijn is dat geen verrassing, maar de Erasmus zoekt nu naar dingen die we nog niet wisten." Ook indirecte relaties tussen medische verschijnselen komen wellicht boven water met deze dataminingachtige methode. "Voor wetenschappers is het bijblijven door het lezen van artikelen niet meer te doen, dus ze wenden zich tot dit soort dingen."