Postkop
Het programma heeft geen weet van de materie waar het over gaat. Wij bieden een natuurlijke dataset aan waarvan wij, op grond van onze vooroordelen, een bepaalde veronderstelling van samenhang hebben. Het programma bepaalt voor elk paar de mate waarin de dominante feature overeenkomt. Dat is puur op grond van analyse van huidige verschijningsvorm. Het programma heeft geen weet van geschiedenis en van wat wij daarover veronderstellen. Engels wordt kennelijk onder de Romaanse talen gerangschikt omdat het ongeveer 40 procent Latijs/Romaanse woorden kent en dat dat in de formele taal van de gebruikte tekstcorpora (Declaration of Human Rights) aanzienlijk hoger ligt. Verder zijn die teksten gesteld in Unicode, een soort fonetische notatie om talen in alle alfabetten te kunnen representeren. Dus ligt de tekst dichter bij hoe het wordt uitgesproken dan bij hoe het wordt geschreven. Dat kan oppervlakkig die verwantschap mede bepalen. Hetzelfde geldt waarschijnlijk voor Frans/Waals/Roemeens. Maar het punt is dat het een mirakel is dat de methode zonder enige kennis, de verwantschappen ongeveer inschat zoals wij die verwachten. Geen andere bestaande methode kan dit. Paul Vitanyi