Overslaan en naar de inhoud gaan

Zoeksysteem maakt einde aan Babylonische spraakverwarring

Gangbare zoekmachines voor internet, intranet en extranet werken uitsluitend op basis van de zoekwoorden die de gebruiker zelf, in zijn of haar eigen taal, opgeeft. Dit betekent dat bij het invoeren van een Nederlands zoekwoord relevante webpagina’s van bijvoorbeeld Franse, Engelse, Duitse of Spaanse origine volledig uit het zicht blijven.
Business
Shutterstock
Shutterstock

Het deze maand te introduceren ‘cross-lingual’ zoeksysteem TwentyOne van Irion Technologies gaat veel verder. De programmatuur achterhaalt eerst de betekenis van de opgegeven zoekterm in een aantal andere talen, onder andere door naar de context te kijken. Dat laatste is mede belangrijk om dubbelzinnigheden weg te filteren, zodat bijvoorbeeld een Engelse zoekterm als ‘guitar string’ niet als ‘gitaaronderbroek’ wordt opgevat. Vervolgens doorzoekt de search engine van Irion alle documenten in verschillende talen en presenteert een trefferlijst die relevante documenten in al die talen bevat. TwentyOne maakt gebruik van een semantisch netwerk, dat wil zeggen een betekenisnetwerk. Irion-grondlegger en directeur Joop van Gent, van huis uit taalfilosoof: “Een semantisch netwerk is een netwerk van concepten die met elkaar samenhangen en in diverse talen verschillende verschijningsvormen hebben. Het concept ‘tweewieler’ heeft bijvoorbeeld in het Nederlands de verschijningsvorm ‘fiets’, in het Frans ‘bicyclette’, in het Duits ‘Fahrrad’, in het Engels ‘bicycle’ enzovoort.” Taaltechnologie Irion Technologies is ontsproten aan het onderzoeksinstituut TNO. Enkele medewerkers van de afdeling Multimediatechnologie, die zich al geruime tijd met taaltechnologie bezighield, besloten eind 1999 een eigen bedrijf op te richten om commerciële producten te ontwikkelen. Drie investeringsmaatschappijen verschaften het bedrijfskapitaal. TNO en Van Dale Lexicografie, bekend uitgever van woordenboeken, behoren ook tot de aandeelhouders en leveren daarnaast vooral kennis. Irion-directeur Van Gent: “Het bijzondere van Irion is dat we over een wereldwijd netwerk beschikken van mensen die zowel taalgevoel hebben als niet bang zijn van een wiskundige formule. Onze technisch directeur Piek Vossen begeleidt tientallen werkgroepen die over de hele wereld bezig zijn een soort superwoordenboek te ontwikkelen, Euro Wordnet genaamd. Dat is een semantisch netwerk waarin uiteindelijk alle talen van de wereld moeten zitten.” Volgens Van Gent zijn er internationaal maar weinig bedrijven die net als Irion taaltechnologie inzetten voor informatie- en kennismanagement. Hij noemt de ontwikkeling van meertalige zoekmachines als TwentyOne zeer belangrijk om een Babylonische spraakverwarring op het web te voorkomen. “De komende vijf jaar komen er vijfhonderd miljoen internetgebruikers bij. De meesten van hen spreken geen Engels. Het web dreigt een archipel van taaleilandjes te worden, waar gebruikers in hun eigen taalgebiedje blijven rondcirkelen. Bedrijven die hun diensten online aanbieden, missen daarmee de mogelijkheden die internet biedt.” EuroWordnet Op dit moment ondersteunt TwentyOne zes talen: Nederlands, Engels, Frans, Duits, Spaans en Italiaans. Van Gent: “Daarnaast hebben we Zweeds klaar en is Van Dale bezig met Portugees en Russisch. Verder willen we een koppeling maken met het EuroWordnet-project, met nog tientallen talen.” In eerste instantie is TwentyOne bedoeld voor bedrijven en instellingen die hun eigen website, intranet of extranet in zes vreemde talen tegelijk doorzoekbaar willen maken. Irion biedt de technologie aan als service voor 249 euro per jaar. Op termijn ziet het Delftse bedrijf mogelijkheden voor een algemene zoekmachine voor het hele internet. Daarvoor is dan wel een batterij van honderden servers nodig, vergelijkbaar met de apparatuur waar algemene zoeksystemen zoals Google over beschikken. Bètatests Het Limburgse projectbureau Eurorue, dat websites ontwikkelt in de Euregio Maas-Rijn, heeft de bètaversie van TwentyOne getest. De eigen site Eurorue.net verspreidt onder meer persberichten in drie talen in Nederlands en Belgisch Limburg, de Waalse provincie Luik en de Duitse regio Aken. Directeur Jean Boumans is enthousiast: “Ik ben er zeer over te spreken. Wij hebben meer dan vijfduizend berichten in drie talen gearchiveerd. Of ik nu een zoekwoord typ in het Duits, Frans of Nederlands: hij doorzoekt alle berichten in de database.” Boumans vindt de toepassing van een semantisch netwerk een groot voordeel: “Mensen weten zelden precies wat ze zoeken. Dan moet het systeem verbanden kunnen aangeven.” Als minpuntje noemt Boumans de ietwat Spartaanse vormgeving van het gebruikersinterface. Dit manco zal Irion in september verhelpen, belooft Irion-directeur Van Gent. Walter Jansen, directeur van juridisch adviesbureau New Law Facilities, ziet mogelijkheden om ‘de enorme baaierd aan wet- en regelgeving’ met behulp van TwentyOne te ontsluiten. Zowel rechtbanken, ministeries als individuele gebruikers zouden daarbij gebaat zijn. Doel is de kloof te dichten tussen het adagium ‘iedereen dient de wet te kennen’ en de praktijk. “Voor mij als relatieve leek zijn twee aspecten belangrijk”, vertelt Jansen. “Het ene is dat TwentyOne gebruik maakt van natuurlijke taal, dus geen woordjes telt zoals in gangbare zoekalgoritmen maar zinvolle samenhang in tekstdelen kan detecteren. Dat is gecombineerd met meertaligheid. Hierdoor gaan databases voor je open die normaal gesloten blijven omdat je niet weet wat de Franse of Italiaanse synoniemen zijn.” Het eveneens Nederlandse bedrijf Knowledge Concepts uit Vught beweegt zich op hetzelfde terrein als Irion. Ook deze leverancier biedt een product voor meertalig zoeken aan. Knowledge Concepts heeft geen eigen zoektechnologie maar sluit aan op de ‘search engines’ van OpenText, Convera, Hummingbird en Collexis.

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in