Overslaan en naar de inhoud gaan

Zoekalgoritme geeft internet toegang tot relationele databases

Lang niet alle gegevens op internet zijn met de standaard zoekmachines te vinden. Alleen het spreekwoordelijke topje van de ijsberg is op deze wijze doorzoekbaar. "Algemeen wordt aangenomen dat de onderlaag van internet, het ‘deep web’, zo’n vijfhonderd maal groter is dan de toplaag. Dat wil dus zeggen dat je met een zoekmachine slechts een fractie van alle gegevens die aan het netwerk hangen, kunt opzoeken", zegt Richard Wheeldon, onderzoeker aan de Birkbeck University of London.
Carriere
Shutterstock
Shutterstock

Samen met Mark Levine en Kevin Keenoy heeft Wheeldon software geschreven waarmee ook het deep web kan worden benaderd. "Je hebt dan het probleem," stelt Wheeldon, "dat je je weg moet zien te vinden in een relationeel systeem. Anders gezegd een opsomming in tabellen waar je eigenlijk een gestructureerde taal als SQL voor nodig hebt. De meeste zoekers naar informatie zijn SQL niet machtig." Eén hulpmiddel Dat zo weinig mensen SQL beheersen is een direct gevolg van het streven van de ICT-wereld om complexe zaken zo veel mogelijk uit het zicht te houden. Een hulpmiddel dat - zoals SQL - alleen maar werkt als men precies weet waar de gegevens staan opgeslagen, is in die visie geen geschikt tool voor de doorsnee computergebruiker. Wheeldon: "Mensen zijn ook niet echt bereid om meer dan één hulpmiddel te gebruiken. Neem bijvoorbeeld de website van boekhandel Amazon.com. Daar hangt een gigantische database vol boeken, schrijvers en andere informatie achter. Ben je via een internetzoekmotor bij die site aangeland, dan zul je via dezelfde zoektechniek ook door de database heen willen." Aan de wetenschappers de taak om de relationele wereld te vertalen naar een vorm die wel doorzoekbaar is met een normaal zoekprogramma. Het resultaat is DbSurfer, een programma dat teruggrijpt op een techniek van bijna zestig jaar oud. "Het werk van de Amerikaanse wetenschapper Vannevar Bush uit 1945 om precies te zijn," aldus Wheeldon, "die een systeem had bedacht waarin bladen vol bij elkaar horende informatie als een ketting aan elkaar worden geregen. Een theoretische voorloper van de hyperlinks die je nu op internet vindt. Bush sprak over sporen, paden waarlangs je samenhangende informatie kunt vinden. Onze software werkt net zo. De tabellen van een relationele database worden doorkruist, waarbij dergelijke sporen worden gemarkeerd. De software daarvoor hadden we in een eerder onderzoek al geschreven." Sporen De gemarkeerde sporen vormen de sleutel voor de database. Eenvoudig gezegd krijgt ieder spoor een eigen zoekroutine, een servlet (de tegenhanger van een applet, maar ook geschreven in Java) die ervoor zorgt dat het spoor zijn informatie prijsgeeft. "De servlets krijgen een eigen URL die wordt opgenomen in de zoekboom die de gebruiker te zien krijgt. De boom bevat daarnaast ook URL’s van webpagina’s. Aanklikken van zo’n link brengt de gebruiker meteen bij de informatie die hij wil hebben", zegt Wheeldon. Het deel dat de gebruiker te zien krijgt, is bewust eenvoudig. Dat houdt in dat de complexiteit ‘onder de motorkap’ is verstopt. "Veel rekenkracht is een eerste vereiste om het hele proces gladjes te laten verlopen. Vooral bij het aanleggen van een sporenplan wordt de computer zwaar belast. Je kunt een veelheid aan sporen definiëren, van superdom tot heel slim. In de eerste variant zou je alle records van een database aan elkaar kunnen knopen, maar dat is nou net niet de bedoeling. We streven naar optimale ketens van records, die je snel naar de gewenste informatie leiden", aldus Wheeldon. Het onderzoek is betaald door de Britse Engineering and Physical Sciences Research Council. Inmiddels is een prototype van DbSurfer gereed. Binnen een jaar moet er een productieversie uit voortkomen. Als eerste gaan de onderzoekers een hechte interface bouwen tussen hun pakket en een zoekrobot op internet. Ook moet de capaciteit van de indexeermodule nog worden vergroot. Wheeldon: "De software verslikt zich nu nog in databases met meer dan een paar tientallen miljoenen tabellen. Maar in theorie kunnen we dat al wel oplossen. Nu begint het echte werk, want echt veilig is onze software nog niet. Je moet er geen database met gevoelige gegevens aan hangen."

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in