Overslaan en naar de inhoud gaan

Verzet tegen datascraping door AI groeit (en website-eigenaren krijgen hulp daarvoor)

Terwijl de discussie én lopende aanklachten over auteursrechten, permissies en vergoedingen met betrekking tot trainingsdata voor AI nog lopen, groeit het verzet tegen het massale 'oogsten' van data op internet door AI-bedrijven. Het scrapen van websites door bots die informatie opzuigen om AI-modellen te trainen, stuit op meer barrières die worden opgeworpen door website-eigenaren. Daarbij biedt een internetreus ook eigen hulp aan.

Een toenemend aantal websites voorziet zijn robots.txt-bestand van expliciete verboden voor datascraping ten behoeve van AI. Dit blijkt uit een analyse van onderzoekers van het Data Provenance Initiative, wat een vrijwilligersgroep van wetenschappers is van het gerenommeerde tech-instituut MIT en diverse universiteiten over de hele wereld. Zij hebben een dramatische inkrimping blootgelegd van de hoeveelheid content die beschikbaar is voor datasets waarmee AI-modellen worden getraind.

Vervijfvoudiging

Deze afbreuk van de zogenoemde AI Data Commons is het afgelopen jaar opgekomen. Dit valt te herleiden naar het inperken van contenttoegang op het openbare web, door eigenaren van openbaar toegankelijke data en websites. Permissie voor scraper-bots is niet langer een gegeven.

Van de 14.000 websites die het Data Provenance Initiative heeft geanalyseerd, heeft zo'n 5% zijn robots.txt-bestand aangepast om AI-scrapers te verbieden. Dat klassieke tekstbestand op websites stuurt het gedrag van rondgaande bots, die ook kunnen dienen voor indexeren en dan vindbaarheid in zoekmachines. Midden vorig jaar was er bij slechts 1% van de onderzochte websites sprake van AI-blokkade in robots.txt.

AI-trainingsdata 'droogt op'

Toch lijkt de geconstateerde verandering bij 5% van de geanalyseerde websites niet groot, merkt 404 Media op, maar het beeld is dramatisch anders als er gekeken wordt naar de belangrijkste websites voor AI-trainingsdoeleinden. Dat zijn namelijk websites die geregeld worden bijgewerkt, voorzien van nieuwe en actuele informatie. Dáár ligt het percentage AI-botblokkades in robots.txt op maar liefst 28%. De New York Times concludeert dan ook dat AI-trainingsdata aan het 'opdrogen' is.

Event: Leadership in Digital, 28 maart

Digitale tijden vereisen digitale leiders en die kunnen vanuit verschillende uitgangsposities komen. CIO’s, CTO’s en andere C-level leiders in de digitale wereld krijgen stevige eisen, grote druk en flinke verantwoordelijkheden. Wat zij nodig hebben om succesvol te zijn, wordt belicht op het event Leadership in Digital, op 28 maart 2025 in Capital C (Amsterdam). Leiderschap heeft vele kanten, waar verschillend gedrag bij hoort. Kom je ontwikkelen, ontpoppen en verstevigen als digitaal leider: meld je aan.

Ondertussen reikt internetreus Cloudflare de helpende hand. Die dienstverlener voor contentdistributie op internet geeft klanten een makkelijke mogelijkheid om "alle AI-bots, scrapers en crawlers" te blokkeren. Niet alle AI-bedrijven laten hun datavergarende bots zich namelijk netjes als zodanig identificeren. Het aanpassen van robots.txt (wat een Nederlandse uitvinding is) is dus niet altijd afdoende om scraping voor AI-doeleinden te voorkomen.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in