Gedistribueerde zoekmachine werkt efficiënter

9 november 2009
Een gedistribueerde aanpak in de infrastructuur van zoekmachines kan de kosten van de Yahoo’s en Googles van deze wereld met 15 procent drukken. Dat constateren medewerkers van Yahoo na onderzoek.

De zoekmachinegiganten hanteren nu een gecentraliseerd model. Daarin staat de locatie en het relatieve belang van informatie op het net – aangevuld met kopieën van informatie in caches - in een centrale index. Kopieën van die centrale index worden gekopieerd naar een aantal grote rekencentra verspreid over de wereld.

Het is de vraag of die opzet toekomst heeft. De rekencentra van Google en andere zoekmachineleveranciers zijn al gigantisch groot, met soms tienduizenden servers. Elektriciteitsvoorziening, maar ook de kabels voor datatransport lijken grenzen te stellen aan de groei.

De onderzoekers van Yahoo ontwikkelden een werkbare gedistribueerde aanpak voor het distribueren van de index. Dat is op zich een oud idee om de groei van de rekencentra in te tomen, maar wel een met bezwaren. Het voornaamste probleem was, hoe je zeker kon stellen dat iedere zoekopdracht het beste totaalresultaat zou geven, en niet alleen het beste wat de geadresseerde index in huis heeft.

De Yahoo-onderzoekers hebben dat probleem opgelost door statistische informatie over de relevantie van pagina’s uit te wisselen tussen de gedistribueerde centra. Voorafgaand aan het beantwoorden van een zoekvraag wordt dan aan de hand van een speciaal ontwikkeld algoritme bepaald, of een ander rekencentrum wellicht beter geëquipeerd is om deze zoekvraag te beantwoorden.

Die opzet is aan de tand gevoeld in een haalbaarheidsstudie met echte zoekgegevens. Daaruit concludeerden de onderzoekers dat een gedistribueerde opzet van de zoekmachine-infrastructuur dezelfde kwaliteit van antwoorden kan opleveren als de gecentraliseerde aanpak; de kosten lagen daarbij zo’n 15 procent lager.

Voor de gebruikers van zo’n gedistribueerde zoekinfrastructuur zijn de gevolgen beperkt. Zoekopdrachten die in het dichtstbijzijnde rekencentrum kunnen worden afgehandeld, zijn in de regel iets sneller. Als de zoekvraag wordt doorgegeven, kan het 20 tot 30 procent langer duren voor er antwoord is, maar dat doorgeven is in maar een relatief beperkt aantal gevallen nodig.

De onderzoekers van Yahoo hebben met hun onderzoeksverslag op de Conference on Information and Knowledge Management van de Association for Computing Machinery in Hong Kong de prijs voor het beste rapport ontvangen.

Lees meer over
Reactie toevoegen