Nieuws Wetenschap

25 oktober 2018 leestijd 2 minuten 0 reacties

Vertaalalgoritmen leren veel van de bijbel

Vertaalprogramma's zijn inmiddels genoeg te vinden op internet. De een is beter dan de ander. Maar ze zetten zonder uitzondering de tekst om in de dezelfde stijl als het origineel. Omzetten van tekst in een andere stijl is een volgende stap in het perfectioneren van tekstvertalers.

Thijs Doorenbosch

Thijs DoorenboschMeer van deze auteur

Bijbel — © CC BY-SA 2.0 - Flickr.com

CC BY-SA 2.0 - Flickr.com

Er is waarschijnlijk geen boek in de wereld dat in zo veel talen en zo veel stijlen is uitgegeven als de bijbel. Dus is dat perfect bronmateriaal voor het aanscherpen van machinelearning-algoritmen, dachten Keith Carlson, Allen Riddell en Daniel Rockmore van Dartmouth College in de Amerikaanse staat New Hampshire.

De bijbel bestaat immers uit meer dan 31.000 verzen. Alleen al in de Engelse taal zijn daar talloze vertalingen van die verschillen in stijl. Er is bijvoorbeeld een versie voor laaggeletterden, een kinderbijbel, maar ook een klassieke 'King James Version'. Zo wisten de onderzoekers meer dan 1,5 miljoen unieke sets van originele en vertaalde verzen te verzamelen uit de 34 bijbelvertalingen die ze hadden geselecteerd op basis van hun stijlverschillen.

Willekeurige teksten in verschillende
stijlen

Die sets werden gevoerd aan twee verschillende vertaalalgoritmen, een statistisch machinevertaalsysteem genaamd Moses en een neuraal netwerk dat vaak wordt ingezet voor machinale vertaling genaamd, Seq2Seq. Op die manier ontstaat een vertaalprogramma dat willekeurige teksten kan omzetten in een stijl die aansluit bij verschillende doelgroepen. De onderzoekers hebben het systeem getest met stukken uit Moby Dick, het beroemde boek van de Amerikaanse schrijver Herman Melville. Ze hebben daar bijvoorbeeld versies van gemaakt voor kinderen en voor mensen voor wie het Engels niet hun moedertaal is.

"Het simplificeren van teksten is maar een van de toepassingen van stijlvertalingen. Meer in het algemeen proberen we onze systemen zo te trainen dat ze teksten produceren met dezelfde boodschap als het origineel maar met andere woorden", zegt Carlson.

'Goddelijke' datasets

Het is niet de eerste keer dat parallelle datasets zijn gecreëerd. Ook van Wikipedia-lemma's en van Shakespeares werken zijn dergelijke sets gemaakt, verklaren de onderzoekers in hun artikel in Royal Society Open Science. Maar het is wel de eerste keer dat de bijbel is gebruikt. Volgens de onderzoekers is het een 'goddelijke' dataset om mee te werken. De teksten zijn heel goed geïndexeerd door het consequente naamgeving van de verschillende boeken, hoofdstukken en verzen in de bijbels. Daardoor is er eigenlijk geen risico dat er ruis ontstaat doordat vertaalde teksten bij het geautomatiseerd matchen worden gekoppeld aan verkeerde originelen.

Gerelateerde artikelen

Nieuws Marketing

Twitter werkt samen met Bing aan vertalingen

De mededeling over de vertaalmogelijkheid werd via een tweet de wereld in geslingerd.

Nieuws Wetenschap

Neurale software belooft betere vertaling

Grammaticale kennis is voor menselijke vertalers, na woordkennis, een van de belangrijkste factoren in hun vermogen om te vertalen.

Achtergrond Leiderschap PRO

Machinevertalingen maken China toegankelijk

Het machinevertalen, de eerste niet-numerieke toepassing van kunstmatige intelligentie, weigerde lange tijd door te breken.

Achtergrond Leiderschap PRO

Google krijgt pluim voor vertalingen

De vertaaldienst van Google is beter dan die van IBM en enkele universiteiten.

Gerelateerde artikelen

Twitter werkt samen met Bing aan vertalingen

Nieuws Marketing

Twitter werkt samen met Bing aan vertalingen

De mededeling over de vertaalmogelijkheid werd via een tweet de wereld in geslingerd.

Neurale software belooft betere vertaling

Nieuws Wetenschap

Neurale software belooft betere vertaling

Grammaticale kennis is voor menselijke vertalers, na woordkennis, een van de belangrijkste factoren in hun vermogen om te vertalen.

Machinevertalingen maken China toegankelijk

Achtergrond Leiderschap PRO

Machinevertalingen maken China toegankelijk

Het machinevertalen, de eerste niet-numerieke toepassing van kunstmatige intelligentie, weigerde lange tijd door te breken.

Google krijgt pluim voor vertalingen

Achtergrond Leiderschap PRO

Google krijgt pluim voor vertalingen

De vertaaldienst van Google is beter dan die van IBM en enkele universiteiten.

Gerelateerde artikelen

Nieuws phishing, ai Partner

AI-aangedreven muterende phishingcampagnes zijn in opmars, waarschuwt KnowBe4-rapport

AI-aangedreven muterende phishingcampagnes zijn in opmars, waarschuwt KnowBe4-rapport

Achtergrond ACM Partner

TP:Talks - ACM richt vizier op drie kernpunten voor de telecomsector

De Autoriteit Consument & Markt (ACM) heeft haar focus voor 2025 en 2026 duidelijk bepaald.

Achtergrond AI Partner

FrieslandCampina's AI Journey: From Grass to Glass, Data to Dairy

From Grass to Glass, Data to Dairy

Meer whitepapers

Whitepaper Marketing

High impact business stories creëren

De route naar de zakelijke beslisser.

Whitepaper Artificial Intelligence

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

Whitepaper Security

Onderzoeksrapport ‘Informatiebeveiliging voor gemeenten’

Ontdek de 5 belangrijkste stappen naar een betere informatieveiligheid voor gemeenten.

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee