Slim opschonen maakt erfgoeddata beter vindbaar

Onderzoekers van het Nationaal Natuurhistorisch Museum Naturalis in Leiden verzamelden de afgelopen 2 eeuwen een schat aan informatie over het leven op aarde. Tot voor kort was deze informatie alleen toegankelijk via de originele handgeschreven logboeken. Nu is een deel van deze data gedigitaliseerd.

Esther WoutersMeer van deze auteur

Van Erp verbeterde de toegankelijkheid van de data met drie geautomatiseerde technieken: automatisch data opschonen, data structureren en data beter vindbaar maken met synoniemen. Ze presenteert twee opschoonmethoden voor de databases van Naturalis: een datagedreven methode die waarden voorspelt aan de hand van naburige data, en een kennisgedreven methode die gebruikmaakt van een andere kennisbron dan de database zelf. Beide methoden sporen veel inconsistenties op en vullen elkaar aan in het soort fouten dat ze ontdekken.

Toepasbaarheid
“Of de methoden kunnen worden toegepast op andere databases hebben we niet kunnen testen”, vertelt Van Erp. “Maar de foutencorrectie wel, dat is de open-sourcepakket Timpute, die kan op elke database gedraaid. Althans, als die groot genoeg is, meer dan 1000 verschillende soorten records.”

Van Erp ontwikkelde ook een methode die een platte databasestructuur verrijkt met relaties tussen kolommen, door kennis uit de online encyclopedie Wikipedia te halen. Van Erp: “Naturalis was op zoek naar een manier om betekenis aan die kolommen te geven en aan de relatie tussen die kolommen. Voor ons is het logisch dat bijvoorbeeld ‘land’ en ‘diersoorten’ een relatie hebben. Om die toe te voegen hadden we extra informatie nodig uit een externe bron.”

Verbetering
De structurering en verrijking van de database zorgen voor een significante toename in het percentage zoekopdrachten dat automatisch kan worden beantwoord: dat steeg van 48 naar 94 procent. Zo kunnen onderzoekers van Naturalis nu een antwoord krijgen op de vraag ‘Waar is de agapad de afgelopen twee eeuwen allemaal waargenomen?’

Het project van Van Erp is nu afgelopen, en een aantal producten die de onderzoeksgroep heeft gemaakt wordt nu geïmplementeerd door softwarebedrijven. Dat zijn de zogenoemde CATCHPlus projecten van NWO.

Voorafgaand aan de promotie organiseert het Tilburg centre for Cognition en Communication (TiCC) het symposium Text mining in the real world , over het zoeken in tekstuele data in alledaagse praktijkomgevingen door middel van (taal)technologie. Sprekers zijn prof. Eduard Hovy (Information Sciences Institute, USC, Marina del Rey, VS) en prof. Piek Vossen (Computational Lexicology and Terminology Lab, VU Amsterdam).