Promovendus laat computer beter luisteren
Andere blik op historisch geluid
Automatische spraakherkenning en nieuwe zoektechnologie bieden de mogelijkheid om geluidsbestanden te doorzoeken: het gesproken woord wordt omgezet in een uitgeschreven tekst (transcriptie), die vervolgens `gewoon' te doorzoeken is. In vele onderzoekslabs wereldwijd wordt hard gewerkt om de kwaliteit van die automatische spraakherkenning te verbeteren. Deze verbeteringen leveren echter bij toepassing in zoeksystemen - en zeker bij erfgoedcollecties - niet altijd een maximaal rendement.
"Het automatisch transcriberen van geluidsfragmenten gaat een stuk sneller dan de traditionele methode die gebruik maakt van crowdsourcing. Daarbij laat je groepen mensen naar het gesprokene luisteren en zij maken dan een tekstuele weergave. Met alle fouten en foutjes van dien", zegt Gareth Jones van Dublin University en een van de leden van de promotiecommissie.
Onverwachte resultaten
Van der Werff stelt een nieuwe manier voor om de kwaliteit van automatisch gegenereerde transcripties te evalueren, waarbij beter rekening wordt gehouden met de manier waarop historici en andere eindgebruikers de zoekresultaten willen toepassen. Dit biedt de mogelijkheid om beter te analyseren waar problemen optreden en geeft tevens aan waar mogelijkheden liggen voor optimalisatie. Vanwege het nauwe referentiekader in de erfgoedsector waarop optimalisaties kunnen worden gebaseerd, is dit een zeer welkome stap vooruit.
Bijzondere problemen
Het audiomateriaal in erfgoedcollecties heeft bijzondere eigenschappen. Behalve dat veel geluidsbanden niet gedigitaliseerd zijn, zijn ze meestal ook niet handmatig getranscribeerd. Verder ontbreekt de metadata volledig, of is er slechts een summiere beschrijving. De aanduiding 'minister spreekt tijdens bijeenkomst' zegt nu eenmaal bitter weinig. Bovendien gaat het vaak om opnames van niet-professionele sprekers met ook nog eens veel omgevingsgeluid. En veel van die sprekers komen slechts in één fragment voor, waardoor er voor een computer niet veel trainingsmateriaal beschikbaar is. Door de geavanceerde techniek van Van der Werff te gebruiken, kunnen de geluidsfragmenten toch goed automatisch verwerkt worden.
Praktische resultaten
De technieken uit het CHoral-project werden al toegepast op collecties van:
- het Gemeentearchief Rotterdam (uitzendingen Radio Rijnmond; website `Brandgrens' met getuigenverhalen over het bombardement op Rotterdam),
- het NIOD (Radio Oranje met toespraken van Koningin Wilhelmina tijdens WOII; getuigenissen van overlevenden uit Buchenwald)
- het interview-archief van Aletta/IAVV.
Ook liggen de kennis en technieken uit CHoral mede aan de basis van het open source spraakherkenningspakket SHoUT (Universiteit Twente), dat werd doorontwikkeld binnen het vervolgtraject CATCHPlus.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee