Reddit gaat geld vragen voor AI-trainingsdata-API
De Reddit Data API is de volgende rijke bron van waardevolle data voor het trainen van grote natuurlijke taalmodellen (LLM) die wegvalt. Eerder zette ook Twitter al een hek voor de API, waarbij het grootschalig gebruik van data aan banden werd gelegd. Dat is niet alleen lastig voor bedrijven als OpenAI en Google die hun LLM's erop willen trainen, maar ook voor onderzoekers die de data willen gebruiken voor allerlei analyses.
De oprichter en CEO van Reddit - Steve Huffman - legt in de New York Times uit waarom hij denkt dat het niet meer dan eerlijk is dat Reddit deze stap neemt. "De Reddit corpus of data heeft echt waarde. Reddit afgrazen, daar nieuwe waarde mee creëren en daarvan op geen enkele manier iets teruggeven aan onze gebruikers, is iets waar we een probleem mee hebben."
Het is bekend dat voor het trainen van LLM's zoals GPT, Open AI en Google petabytes aan informatie schrapen van diverse openbare bronnen op het internet, zoals Wikipedia, online beschikbare boeken, webpagina's, maar ook de 'hose' de tuinslang van sociale media. De Reddit Data API is zo'n hose, oorspronkelijk bedoeld voor ontwikkelaars die informatie uit openbare conversaties op Reddit wilden gebruiken in hun eigen apps. In tweede instantie gingen academische onderzoekers de API gebruiken voor zaken als sentimentanalyse. Maar de overtreffende trap in gebruik van de API zijn de bedrijven die er nu hun neurale netwerken mee trainen en daar uiteindelijk denken veel geld mee te verdienen.
Niet-commerciële gebruikers komen wellicht goed weg
Hoeveel Reddit precies gaat vragen voor het gebruik is niet duidelijk uit de nieuwe gebruiksvoorwaarden. Er staat alleen in dat Reddit zich het recht voorbehoud vergoedingen te vragen of zelfs het gebruik te weigeren. Over de beslissing is niet te onderhandelen. Een opluchting voor academische onderzoekers is wellicht dat Reddit zich vooral lijkt te richten op commerciële toepassingen die voortvloeien uit het gebruik van de Data API.
Reddit gaat ontwikkelaars en andere partijen vanaf deze week op de hoogte stellen van de nieuwe voorwaarden die op 19 juni ingaan.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee