Zoektechniek concentreert zich op vormen
Op die manier wordt een afbeelding uiteengerafeld in een aantal patronen en wordt het kenmerk van elk patroon gebruikt als zoekcriterium. De onderzoekster is aan de Universiteit Utrecht gepromoveerd op het nieuwe zoekmechanisme. Voor het opdelen van de plaatjes in deelpatronen zijn eigenlijk twee methoden bedacht. De eerste maakt gebruik van contouren in het beeld, die worden gemarkeerd en waarbinnen naar extra informatie wordt gezocht. Het menselijk oog doet dit doorlopend en het is een goede methode om vormen te herkennen. Bij een computer treedt wel een complicatie op, doordat het systeem niet altijd een juiste contour uitkiest. Vaak is voor het afbakenen van een contour een grote hoeveelheid wereldkennis nodig en die ontbeert een computer nu eenmaal. De tweede methode tekent een soort skelet op het beeld, een stelsel vertakkingen die aansluiten op de elementen van een afbeelding. Waar een tak zich splitst is sprake van een afwijking of een onderbreking in de contouren. Met deze methode is een computer redelijk goed in staat een plaatje op te delen in zinvolle onderdelen. De plaatjes en de delen daarvan worden opgenomen in een database, die dient als intelligente basis voor de zoekmachine. De inhoud van de database wordt vergeleken met een hoeveelheid plaatjes en wanneer er een zekere overeenkomst bestaat dan wordt het plaatje aangemerkt als deel van het zoekresultaat. Door zo te werken kan bijvoorbeeld worden gezocht op ‘poot’, wat als resultaat afbeeldingen van allerlei dieren oplevert. Niet alleen van beesten met slanke poten, zoals een hert, maar ook van levensvormen met een wat steviger onderstel zoals een olifant. Bij een praktijktest bleek de nieuwe zoekmethode een stuk nauwkeuriger te zijn dan de traditionele manier van machinaal zoeken. In het laatste geval is sprake van een gemiddelde score van 10 procent, wat wil zeggen dat 1 op de 10 gevonden plaatjes na een zoekopdracht inderdaad voldoet aan het zoekcriterium. Bij de methode van Tanase ligt die score soms in de buurt van de 70 procent. De opdeelmethode vormt overigens een goede aanvulling op de Mpeg-7 content descriptiontechniek, die speciaal is bedoeld voor het opdelen van grafische informatie in contouren. Tanase is haar onderzoek zo’n vijf jaar geleden gestart, in een tijd dat zoekmachines op internet nog niet echt goed overweg konden met grafische informatie. In die tijd waren het vooral de dedicated zoeksystemen die de toon aangaven, zoals het Alexandria Digital Library-project (ADL) van de universiteit van Berkeley in Californië. Deze zoekmachine werd vooral ingezet voor het vinden van details op landkaarten en satellietfoto’s. In het publieke domein was er de Photofinder van AltaVista, een eigen ontwikkeling die vooral reageerde op grote vlakken binnen een afbeelding, die dan ook nog eens een felle kleur moesten hebben. Dat was goed voor het vinden van staalblauwe luchten op foto’s, maar minder voor het herkennen van bepaalde vormen. In totaal heeft Tanase, samen met Remco Veltkamp van de Universiteit Utrecht, 46 grafische zoeksystemen aan de tand gevoeld over het vermogen om op vormen te zoeken.