Zoekalgoritme geeft internet toegang tot relationele databases
Samen met Mark Levine en Kevin Keenoy heeft Wheeldon software geschreven waarmee ook het deep web kan worden benaderd. "Je hebt dan het probleem," stelt Wheeldon, "dat je je weg moet zien te vinden in een relationeel systeem. Anders gezegd een opsomming in tabellen waar je eigenlijk een gestructureerde taal als SQL voor nodig hebt. De meeste zoekers naar informatie zijn SQL niet machtig." Eén hulpmiddel Dat zo weinig mensen SQL beheersen is een direct gevolg van het streven van de ICT-wereld om complexe zaken zo veel mogelijk uit het zicht te houden. Een hulpmiddel dat - zoals SQL - alleen maar werkt als men precies weet waar de gegevens staan opgeslagen, is in die visie geen geschikt tool voor de doorsnee computergebruiker. Wheeldon: "Mensen zijn ook niet echt bereid om meer dan één hulpmiddel te gebruiken. Neem bijvoorbeeld de website van boekhandel Amazon.com. Daar hangt een gigantische database vol boeken, schrijvers en andere informatie achter. Ben je via een internetzoekmotor bij die site aangeland, dan zul je via dezelfde zoektechniek ook door de database heen willen." Aan de wetenschappers de taak om de relationele wereld te vertalen naar een vorm die wel doorzoekbaar is met een normaal zoekprogramma. Het resultaat is DbSurfer, een programma dat teruggrijpt op een techniek van bijna zestig jaar oud. "Het werk van de Amerikaanse wetenschapper Vannevar Bush uit 1945 om precies te zijn," aldus Wheeldon, "die een systeem had bedacht waarin bladen vol bij elkaar horende informatie als een ketting aan elkaar worden geregen. Een theoretische voorloper van de hyperlinks die je nu op internet vindt. Bush sprak over sporen, paden waarlangs je samenhangende informatie kunt vinden. Onze software werkt net zo. De tabellen van een relationele database worden doorkruist, waarbij dergelijke sporen worden gemarkeerd. De software daarvoor hadden we in een eerder onderzoek al geschreven." Sporen De gemarkeerde sporen vormen de sleutel voor de database. Eenvoudig gezegd krijgt ieder spoor een eigen zoekroutine, een servlet (de tegenhanger van een applet, maar ook geschreven in Java) die ervoor zorgt dat het spoor zijn informatie prijsgeeft. "De servlets krijgen een eigen URL die wordt opgenomen in de zoekboom die de gebruiker te zien krijgt. De boom bevat daarnaast ook URL’s van webpagina’s. Aanklikken van zo’n link brengt de gebruiker meteen bij de informatie die hij wil hebben", zegt Wheeldon. Het deel dat de gebruiker te zien krijgt, is bewust eenvoudig. Dat houdt in dat de complexiteit ‘onder de motorkap’ is verstopt. "Veel rekenkracht is een eerste vereiste om het hele proces gladjes te laten verlopen. Vooral bij het aanleggen van een sporenplan wordt de computer zwaar belast. Je kunt een veelheid aan sporen definiëren, van superdom tot heel slim. In de eerste variant zou je alle records van een database aan elkaar kunnen knopen, maar dat is nou net niet de bedoeling. We streven naar optimale ketens van records, die je snel naar de gewenste informatie leiden", aldus Wheeldon. Het onderzoek is betaald door de Britse Engineering and Physical Sciences Research Council. Inmiddels is een prototype van DbSurfer gereed. Binnen een jaar moet er een productieversie uit voortkomen. Als eerste gaan de onderzoekers een hechte interface bouwen tussen hun pakket en een zoekrobot op internet. Ook moet de capaciteit van de indexeermodule nog worden vergroot. Wheeldon: "De software verslikt zich nu nog in databases met meer dan een paar tientallen miljoenen tabellen. Maar in theorie kunnen we dat al wel oplossen. Nu begint het echte werk, want echt veilig is onze software nog niet. Je moet er geen database met gevoelige gegevens aan hangen."