Archieven tonen schatten steeds vaker via internet

Wie op internet op zoek gaat naar specifiek Amsterdamse onderwerpen zoals ‘burgemeester Polak’ heeft een gerede kans dat hij of zij terecht komt op de website van het Gemeentearchief. Deze instelling heeft namelijk zijn inventaris opengesteld voor internet-zoekmachines.

Redactie AG ConnectMeer van deze auteur

Tech & Toekomst — Shutterstock

Shutterstock

Vanuit Google wordt de surfer direct doorgestuurd naar de betreffende pagina’s van het archief, waarbij het lijkt alsof Google beschikt over een grote verzameling ‘deep links’. "Dat is maar schijn", zegt voorlichter André Hirs van het archief. "In werkelijkheid hebben we voor Google en soortgelijke zoekmachines een speciale ingang laten maken. Dat betekent dat we onze gegevens op twee manieren presenteren, via twee aparte websites." Deze bijzondere aanpak is voor het archief ontwikkeld door het Amsterdamse bedrijf Toutatis Internet Publishing Software, dat de ene site heeft geoptimaliseerd voor de robots van zoekmachines. Die site is niet bedoeld voor menselijke toegang. De andere site presenteert de gegevens van de index op een voor het grote publiek prettige en overzichtelijke manier. Door die tweedeling wordt ervoor gezorgd dat zoekmachines snel hun weg kunnen vinden in de gegevens. "Wat ons betreft is dit een novum", aldus Hirs, "we kennen geen enkele andere instelling die op deze wijze gegevens via internet doorzoekbaar maakt. De techniek is ook niet beperkt tot Google alleen, ook andere zoekmachines kunnen er gebruik van maken. Wel is Google op dit gebied het verst gevorderd." De robot-versie van de website bevat een sterk gestructureerde opsomming van de gegevens die het archief in een relationele database heeft staan. Daarbij is zo goed mogelijk toegewerkt naar de wijze waarop een zoekmachine werkt, namelijk het opzoeken en opslaan van platte tekst. De gegevens hoeven niet in XML- of HTML-formaat gebracht te worden. Dat is slechts cosmetica waar een menselijke gebruiker wat aan heeft. Pas als die menselijke gebruiker vanuit de zoekmachine de gegevens wil raadplegen, wordt een opmaaktaal ingeschakeld. Bij het opzoeken van de gegevens wordt een snippertechniek gebruikt om de laadtijd van de pagina niet te lang te laten worden. Hirs: "We maken gebruik van een inleestechniek die in de meeste moderne browsers beschikbaar is. Het on-the-fly binnenhalen van gegevens is in elk geval getest met Internet Explorer vanaf versie 5.5, Mozilla en Netscape. De browsers halen geen traditionele volle pagina binnen, maar een raamwerk waarin de juiste teksten dynamisch worden neergezet." Het dynamisch opbouwen van webpagina’s wordt gedaan conform de richtlijnen die door het World Wide Web Consortium (W3C) zijn opgesteld. De afgelopen weken zijn tests uitgevoerd met deze manier van informatie ontsluiten en dat leidde al meteen tot een verhoogd bezoekersaantal op de site van het Gemeentearchief. "Normaliter hebben we zo’n 1000 bezoekers per dag, maar na het openen van de test steeg dat zeer snel tot meer dan het dubbele.", zegt Hirs De techniek zorgt tevens voor een aanmerkelijke besparing, doordat het gegevensverkeer tot een minimum wordt gereduceerd. Hirs: "Door de gekozen manier van werken wordt het ‘zware werk’ gedaan door de computer van de gebruiker. Onze server hoeft alleen een paar kleine snippers informatie weg te sturen. Dat betekent dat we geen zwaardere computers hoeven te kopen, want met dezelfde hardwarekosten kunnen we een groter publiek bedienen." Een volgende stap staat al in de planning: het op bestelling leveren van scans van gezochte stukken. "Het duurt nog wel even, maar op termijn kunnen mensen een mailtje sturen om de stukken te laten digitaliseren en die scans dan tegen een vergoeding toegemaild te krijgen", zegt Hirs. Niet alleen Amsterdam timmert aan de weg, ook de Koninklijke Bibliotheek (KB) in Den Haag is druk bezig grote hoeveelheden gegevens via internet raadpleegbaar te maken. Momenteel wordt de laatste hand gelegd aan een digitale krantenverzameling. Het gaat om historische kranten uit de periode 1910 tot 1945 die compleet zijn gescand en die fulltext doorzoekbaar zijn. Het project is 16 december klaar en dan zijn de kranten Het Centrum, NRC, Het Vaderland en Het Volk geheel op woordniveau doorzoekbaar. In totaal heeft de KB 350.000 krantenpagina’s digitaal beschikbaar. Ter vergelijking: het digitale archief van de Groene Amsterdammer, dat 70 jaar beslaat, herbergt zo’n 10.000 digitale pagina’s. Deze beide krantendigitaliseringen zijn overigens gemaakt door ZyLab.

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

Toegang tot 3 PRO artikelen per maand
Inclusief CTO interviews, podcasts, digitale specials en whitepapers
Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Heb je al een account? Log in

Archieven tonen schatten steeds vaker via internet

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

Bevestig jouw e-mailadres

Er is iets mis gegaan

Maak een gratis account aan en geniet van alle voordelen:

Maak een gratis account aan en geniet van alle voordelen: