Nieuws Development

21 november 2017 leestijd 1 minuut 0 reacties

Open source op Github bestaat vooral uit kopieerwerk

Dat er veel gedupliceerde code aanwezig is, kan geen verrassing zijn. Github is bedoeld om samen te werken en code te delen. Maar de omvang wekt toch verbazing en geeft onderzoekers reden voor een waarschuwing.

Thijs Doorenbosch

Thijs DoorenboschMeer van deze auteur

github — © GitHub

GitHub

Van de 428 miljoen bestanden op Github zijn er maar 85 miljoen uniek, meldden onderzoekers van de universiteit van California op de OOPSLA SPLASH conferentie in Vancouver. The Register bericht daarover. Het onderzoek had niet tot doel de mate van duplicatie te onderzoeken, maar om het voor andere onderzoekers makkelijker te maken wanneer zij een representatieve steekproef willen nemen uit de open source code.

De onderzoekers waarschuwen dan ook hun collega's dat zij zich terdege bewust moeten zijn van het niveau van duplicatie, wanneer ze onderzoek doen aan software. "Een simpele random selectie leidt met hoge waarschijnlijkheid tot monsters met een hoge mate van duplicatie. Dat kan leiden tot onbetrouwbare resultaten van onderzoek, meldt de open source analist Adrian Colyer in een blog.

Java-ontwikkelaars produceren het vaakst unieke code

De onderzoekers hebben een index gemaakt die het makkelijker moet maken om tot een juiste steekproef te komen. Ze hebben daartoe gebruik gemaakt van verschillende hash-technieken. Het blijkt dat JavaScript-code het meest wordt gekloneerd. 94 procent van de bestanden bleken gebaseerd op een kern van 6 procent orginele bestanden. Java-ontwikkelaars schrijven van alle contribuanten de meeste code zelf. Maar desondanks bestaat 40 procent van de bestanden uit duplicaten.

Het fenomeen ontstaat doordat veel ontwikkelaars die aan een project beginnen libraries in hun eigen repositories plaatsen alsof deze bij hun eigen code horen en daar vervolgens op verder bouwen.

Gerelateerde artikelen

Achtergrond Development PRO

Github sluipt het bedrijfsleven binnen

Github is uitgegroeid tot een referentie voor hoe je projecten uitvoert, zelfs buiten de IT.

Achtergrond Procesmanagement PRO

Zo maak je commerciële open source modellen succesvol

Het belang van open source bpm-platformen groeit.

Gerelateerde artikelen

Github sluipt het bedrijfsleven binnen

Achtergrond Development PRO

Github sluipt het bedrijfsleven binnen

Github is uitgegroeid tot een referentie voor hoe je projecten uitvoert, zelfs buiten de IT.

Zo maak je commerciële open source modellen succesvol

Achtergrond Procesmanagement PRO

Zo maak je commerciële open source modellen succesvol

Het belang van open source bpm-platformen groeit.

Gerelateerde artikelen

Achtergrond AI Partner

FrieslandCampina's AI Journey: From Grass to Glass, Data to Dairy

From Grass to Glass, Data to Dairy

Nieuws phishing, ai Partner

AI-aangedreven muterende phishingcampagnes zijn in opmars, waarschuwt KnowBe4-rapport

AI-aangedreven muterende phishingcampagnes zijn in opmars, waarschuwt KnowBe4-rapport

Achtergrond ACM Partner

TP:Talks - ACM richt vizier op drie kernpunten voor de telecomsector

De Autoriteit Consument & Markt (ACM) heeft haar focus voor 2025 en 2026 duidelijk bepaald.

Meer whitepapers

Whitepaper Artificial Intelligence

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

Whitepaper Marketing

High impact business stories creëren

De route naar de zakelijke beslisser.

Whitepaper Cloud

De 7 meestgestelde vragen over Azure

Jouw gids naar de Azure-cloud met antwoorden op de meestgestelde vragen voor een succesvolle implementatie.

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee