Post
In AG 41 zegt Prof. Vitányi dat "Unicode een soort fonetische notatie is om talen in alle alfabetten te kunnen representeren. Dus ligt de tekst dichter bij hoe het wordt uitgesproken dan bij hoe het wordt geschreven." Dit is onzin. Unicode, gebaseerd op de Internationale Standaard 10646, is, juist als ASCII, een lijst van schrifttekens, waarbij aan elk ervan een bitpatroon is toegevoegd van (vaak) twee bytes. De fonetische waarde die een schriftteken zou kunnen hebben is daarbij irrelevant. Een tekst gecodeerd volgens Unicode bevat dus geen informatie over de uitspraak. Die is ook niet zomaar uit het geschrevene af te leiden, zoals Engels ons leert. J.W. van Wingen (voorzitter Nederlandse Commissie Codering van Schrifttekens) Van Wingen heeft gelijk: de Unicode geeft een ASCII-codering aan alle 96447 karakters van de alfabetten, ideogrammen, en symboolcollecties die in de wereld bekend zijn, en gaat niet over de uitspraak. Mijn onbekendheid met wat Unicode is, illustreert nogmaals hoe onafhankelijk onze clusteringmethode is van ‘background knowledge’, ook bij de gebruiker. Van toepassing is dr. Samuel Johnson’s antwoord aan een dame die vroeg waarom hij in zijn beroemde Dictionary het woord ‘pastern’ beschreef als ‘knie van een paard’: ‘ignorance, madam, sheer ignorance.’ De redactie behoudt zich het recht voor artikelen en brieven te redigeren en in te korten. De auteurs verlenen impliciet toestemming voor openbaarmaking en verveelvoudiging van hun bijdrage in elektronische uitgaven van Automatisering Gids. Bijdragen kunnen worden gestuurd aan: ag@wkths.nl.