Open source op Github bestaat vooral uit kopieerwerk
Van de 428 miljoen bestanden op Github zijn er maar 85 miljoen uniek, meldden onderzoekers van de universiteit van California op de OOPSLA SPLASH conferentie in Vancouver. The Register bericht daarover. Het onderzoek had niet tot doel de mate van duplicatie te onderzoeken, maar om het voor andere onderzoekers makkelijker te maken wanneer zij een representatieve steekproef willen nemen uit de open source code.
De onderzoekers waarschuwen dan ook hun collega's dat zij zich terdege bewust moeten zijn van het niveau van duplicatie, wanneer ze onderzoek doen aan software. "Een simpele random selectie leidt met hoge waarschijnlijkheid tot monsters met een hoge mate van duplicatie. Dat kan leiden tot onbetrouwbare resultaten van onderzoek, meldt de open source analist Adrian Colyer in een blog.
Java-ontwikkelaars produceren het vaakst unieke code
De onderzoekers hebben een index gemaakt die het makkelijker moet maken om tot een juiste steekproef te komen. Ze hebben daartoe gebruik gemaakt van verschillende hash-technieken. Het blijkt dat JavaScript-code het meest wordt gekloneerd. 94 procent van de bestanden bleken gebaseerd op een kern van 6 procent orginele bestanden. Java-ontwikkelaars schrijven van alle contribuanten de meeste code zelf. Maar desondanks bestaat 40 procent van de bestanden uit duplicaten.
Het fenomeen ontstaat doordat veel ontwikkelaars die aan een project beginnen libraries in hun eigen repositories plaatsen alsof deze bij hun eigen code horen en daar vervolgens op verder bouwen.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee