Ook Stack Overflow eist tolgeld voor AI-trainingsdata

Er komt een einde aan gratis gebruik van Stack Overflow voor AI's van techreuzen. Na de bekende forumsite Reddit trekt nu ook de veelgebruikte programmeerhulpsite Stack Overflow een grens voor AI-toepassingen die in wezen aan éénrichtingsverkeer doen. De site die vragen en antwoorden van softwaredevelopers bevat, gaat een vergoeding eisen als zijn content wordt gebruikt om algoritmes en chatbots zoals ChatGPT te trainen.

Jasper BakkerredacteurMeer van deze auteur

Het gebruik van informatie op sites door zoekmachines levert websites in de regel verkeer op (en daarmee bezoekers, ads-inkomsten en eventueel abonnementen). Het gebruik van informatie op sites als trainingsdata voor AI-toepassingen heeft die wederkerigheid echter niet. Als een AI eenmaal getraind is, 'weet' die de informatie en kan het zijn eigen gebruikers complete antwoorden geven. Soms wordt daarbij nog wel een bronvermelding gegeven, maar dat geeft de oorspronkelijke site veel minder bezoek.

Bij search al controverse

Enkele jaren terug heeft Googles introductie van zogeheten featured snippets bij zoekresultaten al voor controverse gezorgd. De internetreus geeft gebruikers dan al gelijk op zijn site een wat grotere tekst die het antwoord is of bevat op de zoekopdracht die is ingegeven. Soms is dat in een rijtje van verschillende, gerelateerde mogelijkheden, die de gebruiker kan uitklappen.

Omwille van betrouwbaarheid zou Google minder genegen zijn om gebruikers 'het web op te sturen', heeft voormalig search-topvrouw Marissa Mayer eind vorig jaar verklapt. In de zomer van vorig jaar heeft Google aangekondigd dat het de kwaliteit van zijn snippets gaat verbeteren door daar AI voor in te zetten. Voor goede AI-toepassingen zijn dus wel goede datasets nodig.

Gebouwd op andermans werk

Techreuzen als OpenAI, Google en anderen hebben hun grootschalige en kostbare AI's gebouwd op grote datasets, die ze hebben verzameld op het web. Stack Overflow wil - net als forumsite Reddit en traditionele uitgeverijen - voor de eigen content geld gaan vangen. Dit meldt onder meer het Amerikaanse techmagazine Wired, wiens uitgever is aangesloten bij een brancheorganisatie die AI-principes heeft onthuld waarbij AI-ontwikkelaars moeten onderhandelen over informatiegebruik.

Het gaat echter niet alleen om traditionele uitgeverijen en media. Vraag/antwoordsite Stack Overflow, waar veel ontwikkelaars elkaar helpen, voelt zich ook gebruikt en op langere termijn mogelijk zelfs bedreigd. CEO Prashanth Chandrasekar wil vanaf aankomende zomer tol heffen voor AI-toegang tot de 50 miljoen vragen met antwoorden, afkomstig van 20 miljoen geregistreerde gebruikers op zijn site.

'Ook goed voor toekomstige AI-chatbots'

Hij stelt dat communityplatformen die dienen als brandstof voor grote taalmodellen (large language models, LLM's recht hebben op compensatie voor hun bijdrages. Hij is daarmee niet simpelweg uit op inkomsten, maar spreekt van middelen om weer te investeren in de eigen communities zodat die kunnen blijven groeien en bloeien. Dit kan dan ook weer toekomstige AI-chatbots helpen; door nieuwe en rijkere informatie te kunnen opleveren als trainingsdata.

De kwaliteit van content is daarbij ook van belang. Stack Overflow heeft eind vorig jaar een verbod gelegd op antwoorden gegenereerd door ChatGPT, omdat die onvoldoende kwaliteit zouden hebben. De vraag/antwoordsite werd toen overspoeld door antwoorden die afkomstig zijn van de bekende AI-chatbot. Daarbij blijkt de correctheid echter laag te zijn, maar dat is niet altijd duidelijk, wat dan weer de geloofwaardigheid van Stack Overflow zou aantasten.