Overslaan en naar de inhoud gaan

Reddit gaat geld vragen voor AI-trainingsdata-API

Discussieplatform Reddit verandert zijn gebruiksvoorwaarden waardoor het voor ontwikkelaars een stuk lastiger wordt om de informatie op het platform te gebruiken voor het trainen van AI-modellen. Reddit houdt zich nu het recht voor dit te weigeren of er een vergoeding voor te vragen.
stop stroom data
© Shutterstock
Shutterstock

De Reddit Data API is de volgende rijke bron van waardevolle data voor het trainen van grote natuurlijke taalmodellen (LLM) die wegvalt. Eerder zette ook Twitter al een hek voor de API, waarbij het grootschalig gebruik van data aan banden werd gelegd. Dat is niet alleen lastig voor bedrijven als OpenAI en Google die hun LLM's erop willen trainen, maar ook voor onderzoekers die de data willen gebruiken voor allerlei analyses.

De oprichter en CEO van Reddit - Steve Huffman - legt in de New York Times uit waarom hij denkt dat het niet meer dan eerlijk is dat Reddit deze stap neemt. "De Reddit corpus of data heeft echt waarde. Reddit afgrazen, daar nieuwe waarde mee creëren en daarvan op geen enkele manier iets teruggeven aan onze gebruikers, is iets waar we een probleem mee hebben."

Het is bekend dat voor het trainen van LLM's zoals GPT, Open AI en Google petabytes aan informatie schrapen van diverse openbare bronnen op het internet, zoals Wikipedia, online beschikbare boeken, webpagina's, maar ook de 'hose' de tuinslang van sociale media. De Reddit Data API is zo'n hose, oorspronkelijk bedoeld voor ontwikkelaars die informatie uit openbare conversaties op Reddit wilden gebruiken in hun eigen apps. In tweede instantie gingen academische onderzoekers de API gebruiken voor zaken als sentimentanalyse. Maar de overtreffende trap in gebruik van de API zijn de bedrijven die er nu hun neurale netwerken mee trainen en daar uiteindelijk denken veel geld mee te verdienen.

Niet-commerciële gebruikers komen wellicht goed weg

Hoeveel Reddit precies gaat vragen voor het gebruik is niet duidelijk uit de nieuwe gebruiksvoorwaarden. Er staat alleen in dat Reddit zich het recht voorbehoud vergoedingen te vragen of zelfs het gebruik te weigeren. Over de beslissing is niet te onderhandelen. Een opluchting voor academische onderzoekers is wellicht dat Reddit zich vooral lijkt te richten op commerciële toepassingen die voortvloeien uit het gebruik van de Data API.

Reddit gaat ontwikkelaars en andere partijen vanaf deze week op de hoogte stellen van de nieuwe voorwaarden die op 19 juni ingaan.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in