Nieuwe zoekalgoritmes redden Internet
Een meer geavanceerde zoekmethode kan hier verbetering in brengen. Tom Mitchell, afkomstig van het IBM Watson Research Lab en hoogleraar aan de Amerikaanse Carnegie Mellon University, zet zijn kaarten op zogeheten ’co-trained’ zoekalgoritmes voor Internet. „Ze halen een accuratesse van circa 96 procent, zo blijkt uit tests”, beweert Mitchell. Zelflerend Hij beweert dat de nieuwe zoekalgoritmes die hij ontworpen heeft, het aantal fouten van zoekrobots met meer dan de helft reduceert. De nieuwe zoekalgoritmes zouden in staat zijn snel en adequaat ongestructureerde data te doorzoeken zonder dat ze daarvoor vooraf zwaar opgetuigd zijn door programmeurs. Mitchell is zijn onderzoek ooit begonnen met het intelligent maken van robots. Zo konden de kleine wagentjes autonoom hun weg vinden langs een obstakelparcours. „Die technieken kunnen we ook gebruiken voor het navigeren langs een reeks websites. Bepaalde pagina’s op het WWW vertonen fouten en die beschouwen we als obstakels waar ’omheen’ gereden dient te worden”, verklaart Mitchell. Het zogenaamde WhizBang Extraction Framework van Mitchell is geschikt voor Internet, intranet ten en ook databases. Het bedrijf van Mitchell sloot begin dit jaar een contract met adviesbureau Dun & Bradstreet. D&B gebruikt de software om informatie over meer dan zestig miljoen bedrijven te verzamelen en up-to-date te houden. D&B zegt dat de informatie die het bedrijf verzamelt nu sneller en vaker benadert kan worden. Het Extraction Framework van WhizBang heeft ook tot gevolg dat D&B informatie kan inzamelen over nieuwe categorieën e-commerce of Internet-bedrijven, waar dat vroeger onmogelijk was. Op die manier is D&B naar eigen zeggen in staat nieuwe diensten te leveren en nieuwe inkomsten te genereren. Ook het Amerikaanse ministerie voor arbeid maakt gebruik van de zoekrobot van WhizBang. Volgens Mitchell ligt de toekomst van zoekrobots in de combinatie van de geavanceerde zoekalgoritmes die WhizBang produceert met natuurlijke vraagstelling. Internet-zoekrobot AskJeeves maakt het de gebruiker nu al mogelijk om natuurlijk geformuleerde vragen te stellen. Volgens Mitchell is de visie van AskJeeves correct, maar blijft het zoeken het echte probleem. Vragen in natuurlijke taal moeten worden gecombineerd met de nieuwe rekenregels, is de stelling van Mitchell. De routines zijn getest in een vertrouwd probleemdomein, te weten de websites van de diverse faculteiten computerwetenschap. De informatie op dergelijke webpagina’s is redelijk gestandaardiseerd en fouten kunnen dus met relatief gemak gesignaleerd worden. Veel algemener Mitchell zette deze markeerfunctie om naar een veel algemenere methode. Op basis van de contaxt van een pagina wordt incorrecte informatie van een markering voorzien. Het is niet zo, dat op deze manier alle fouten worden gevonden. „Dat is ook de reden dat we niet verder durven gaan dan een accuratesse van 96 procent”, zegt Mitchell. Bij het onderzoek is zwaar geleund op de programma’s uit de wereld van de kunstmatige intelligentie. Deze dienen voor het uitrafelen van informatie die in een vrij formaat (lees: natuurlijke taal) is vervat. Na deze vertaalslag staan de gegevens in een formeel formaat, dat eenvoudig via software kan worden doorzocht.