Overslaan en naar de inhoud gaan

Revolutie in kennis- en extractiesoftware

“Alle gestructureerde en ongestructureerde informatie wordt met de Tarchon-softwaresuite ontsloten en in kaart gebracht”, aldus Henk Alles, Chief Technical Officer van Tarchon en indertijd medeoprichter van Medialab/BSO-Origin. “Of het nu gaat om HTML-pagina’s, met tekstverwerkers aangemaakte documenten, databases, PDF-bestanden, e-mails of zelfs externe websites.”
Carriere
Shutterstock
Shutterstock

“Zoekfuncties met een aantal kernwoorden om gegevens in een aantal documenten of directories terug te vinden, bestaan al sinds jaar en dag”, vervolgt hij. “Alleen missen die de intelligentie om ‘menselijke’ verbanden tussen gegevens te leggen. Zoals een 7-jarige in een artikel in de NRC afzonderlijke woorden kan lezen, maar niet zoals een 17-jarige die begrippen kent en de samenhang ertussen begrijpt.” Bijvoorbeeld de wetenschap dat Amsterdam en Rotterdam plaatsnamen zijn en als er in een en hetzelfde document met ‘daar’ naar wordt verwezen, diezelfde plaatsnaam worden bedoeld. Betekenis Over die vereiste ‘17-jarige’-intelligentie beschikt de software van Tarchon wel. Hiertoe is semantische technologie – kennis van de betekenis van woorden – ingebouwd. Alles: “Wij hebben zelfontwikkelde algoritmes om woorden zowel fonetisch te rangschikken als in lettergrepen onder te verdelen en vervolgens weer te analyseren.” Om die zelf ontwikkelde technologie te beschermen, heeft het bedrijf patenten aangevraagd. De officiële startdatum van Tarchon was 1 april dit jaar. Maar de kern van het bedrijf – waaronder Henk Alles – houdt zich al ruim vijftien jaar bezig met intelligente taaltechnologieën. Hij zegt: “Wij maken onder meer gebruik van de zogenaamde stringdifferentiatie zoals twintig jaar geleden is ontwikkeld door de Russische wetenschapper Levenstein. Die techniek spoort in dezelfde context verschillen op tussen woorden en meet dan bijvoorbeeld de frequentie. Na analyse levert dat bruikbare herkenningspatronen op.” Het vijftien personeelsleden tellende bedrijf doet regelmatig beroep op bijna twintig wetenschappers uit de voormalige Sovjet-Unie. Want de technologie en de opbouw daarvan vormt de basis voor Tarchon. De wijze waarop dat in software is beschreven, ligt daarentegen meer op het snellere uitvoerende vlak. En daarmee is direct het raadsel opgelost, waarom het bedrijf zo’n vliegende start heeft kunnen maken. Gebruiker van het eerste uur is het Duitse internetbedrijf Andastra nabij Frankfurt. Zij hebben de softwaresuite geïnstalleerd. Hun nieuwe luchtreizigers-portal komt na half september voor klanten beschikbaar. Andastra-woordvoerster Kirsten Minten: “Op de site www.flughaven.de kunnen klanten niet alleen snel te weten komen wat bijvoorbeeld de temperatuur in Barcelona is. Ook kunnen zij zich vlug op de hoogte stellen welke hotels in Casablanca beschikbaar zijn, bijvoorbeeld voor minder dan 50 euro per nacht, of wie er een huurauto van een gewenst model, motortype en in een bepaalde periode beschikbaar heeft. Wij hebben straks alle actuele gegevens van alle luchthavens, wereldwijd, voor onze klanten beschikbaar. De kracht van de semantische database is ongekend. Het is de eerste maal dat ik zoiets heb gezien.” Verschillende locaties Een andere vroege gebruiker van de Tarchon-software is de Fitst Dutch Capital Group (DCG) uit Amsterdam. Zij zijn corporate finance adviseurs en doen veel onderzoek in businessplannen, investeringsmemoranda, onderzoeks- en analistenrapporten. Met name de advisering en begeleiding van fusies en overnames vraagt om enorme research-inspanningen op het gebied van markt, concurrentie, afnemers en technologie. Felix Hillen van DCG zegt: “Wij denken dat de verhouding research en analyse, in hoeveelheid werktijd gezien ongeveer 80:20, met Tarchon omdraait. Dat betekent dat onze analisten een steeds groter deel van hun werktijd aan echt hersenwerk besteden.” E-business solutions-aanbieder Object Technology uit Amsterdam wil de Tarchon-technologie bij zijn klanten toepassen. Managing Director Peter Ticoalu: “Het systeem is een uitkomst voor kennisintensieve ondernemingen zoals banken, advocatenkantoren, verzekeringsmaatschappijen en overheden. Maar ook industriële partners. Tarchon is revolutionair. Vooral voor moeilijk te beheren informatie als die op verschillende lokaties aanwezig is, bijvoorbeeld in Nederland en in de VS.” Bij zijn zoektocht door alle informatie- catacombes neemt de Tarchon-software ook fout gespelde woorden zoals ‘Amsterdan’ of ‘pannekoek’ in plaats van ‘pannenkoek’ mee. De gebruiker is niet afhankelijk van perfect gespelde woorden. Alles: “Er zijn lijsten ingebouwd, zoals van eigennamen, plaatsnamen en zelfs componisten. De installatiekosten van de Tarchon-site komen op ongeveer 10.000 euro en de licentiekosten per server – onafhankelijk van het aantal gebruikers – zijn 10.000 tot 20.000 euro. Het businessplan van Tarchon op termijn, is niet gericht op de distributie van software, maar meer op de uiteindelijke levering van OEM-applicaties voor zogenaamde implementatiepartners.

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in