Overslaan en naar de inhoud gaan

Europese bibliotheken zetten collectie online

Zo’n 2,5 miljard boeken en een veelvoud aan kranten, tijdschriften, geluidsopnamen en beeldmateriaal liggen opgeslagen in de nationale bibliotheken van de Europese lidstaten. Een groot deel van dat materiaal moet in een paar jaar online beschikbaar komen. Dat is althans het doel van het project European Digital Library (EDL).
Business
Shutterstock
Shutterstock

Afgelopen week werd een belangrijke stap gezet in dit project met de oprichting van de European Digital Library Foundation, de formele samenwerking van vijftien nationale bibliotheken.
De Europese Commissie heeft een bedrag van 1,3 miljoen dollar beschikbaar gesteld voor de eerste fase van het project, die moet uitmonden in een prototype van de zoekportal. In november 2008 wil de organisatie deze functionaliteit aan het publiek demonstreren.
De European Digital Library wordt een verwijsindex voor het materiaal dat de verschillende bibliotheken in bezit hebben. Volgens Jon Purday, woordvoerder van het project, is al veel materiaal beschikbaar. De British Library heeft bijvoorbeeld een project lopen waarin de organisatie onder meer zo’n tweehonderd miljoen krantenpagina’s en honderden geluidsfragmenten digitaliseert.
Het belangrijkste probleem voor het EDL-project is de classificatie van het materiaal. Ieder land heeft zijn eigen manier van metadata toekennen. Zo bestaan er per taal wel zo’n 80.000 tot 120.000 ‘subject items’ om materiaal op een georganiseerde manier te duiden. Een bericht over een voetbalwedstrijd in Nederland zou bijvoorbeeld de labels ‘sport’ en specifieker ‘voetbal’ meekrijgen, maar in een andere taalgebied zijn de woorden anders en mogelijk ook de rubricering.
Purday wijst op de soms vele verschillende omschrijvingen van een onderwerp. Een middeleeuwse icoon van een vrouwenfiguur met kind op de arm kan bijvoorbeeld de omschrijving ‘maagd Maria’ meekrijgen, maar ook ‘Madonna’ of ‘moeder van Christus’. Ook kennen namen verschillende schrijfwijzen, bijvoorbeeld met of zonder accenten of met andere letters. Het aan elkaar koppelen van die termen in alle Europese talen is ‘gruwelijk complex’, zegt Sjoerd Siebinga, technical development engineer bij EDL. “De technische uitdaging zit in het creëren van een soort thesauri die zorgen voor de meertalige semantische interactiviteit.”
Siebinga noemt ook de gebruikersinterface als belangrijk punt van onderzoek. “Het doel is het materiaal niet alleen te ontsluiten voor de ‘hardcore’ cultureel erfgoedspecialisten, maar ook voor de doorsnee websurfer die nu voor een onderwerp als de Tweede Wereldoorlog alleen naar Wikipedia gaat.” De interface moet daarom hulp bieden bij het zoeken. Een zoekterm als Tweede Wereldoorlog levert bijvoorbeeld al snel enkele tienduizenden hits op. In tegenstelling tot een Google-zoekopdracht is al het materiaal dat de EDL-zoekmachine ontsluit, gevalideerd. Het aanbrengen van een rangorde in de zoekresultaten wordt daarmee veel lastiger. Siebinga noemt de navigatieopties waarmee Funda het aanbod aan huizen indeelt in categorieën als voorbeeld van een richting waarin naar een oplossing wordt gezocht.
In het project moet ook een oplossing worden gevonden voor het deel van de collecties waar auteursrecht op rust. Vooral de zogeheten ‘weespublicaties’ (orphan works) die niet meer worden uitgegeven en waarvan de rechthebbenden niet zijn op te sporen. In ieder geval moet in het systeem een mogelijkheid komen om voor sommige werken bij te houden wie welke pagina’s bekijkt en daar eventueel tegen betaling toegang toe te verlenen, individueel of op instellingsniveau.
Om in de relatief korte tijd het prototype te kunnen bouwen, is het werk verdeeld over verschillende groepen. Een aantal probleemstellingen heeft EDL ondergebracht bij onderzoeksgroepen van universiteiten. In totaal doen bijna zestig partners mee in het project.
Naar verwachting zijn in november 2008 minstens twee miljoen werken doorzoekbaar. In 2010 moet dat aantal zijn uitgegroeid tot ver boven de zes miljoen. Het budget voor dit immense werk komt waarschijnlijk voor een groot deel van nationale overheden, denkt Purday. Daarnaast kijkt de organisatie ook naar het bedrijfsleven. Google en Microsoft bijvoorbeeld zijn op eigen initiatief al projecten met bibliotheken begonnen om geprint materiaal online te ontsluiten. Purday: “Grote bedrijven hebben mogelijk interesse, bijvoorbeeld oliemaatschappijen of banken, die wel vaker culturele evenementen zoals tentoonstellingen sponsoren. Er zijn ook stichtingen en fondsen die zich specifiek richten op het veilig stellen van bedreigde archieven. ”
/t.doorenbosch@sdu.nl

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in