Nieuws Artificial Intelligence Datamanagement

30 juli 2024 leestijd 2 minuten 0 reacties

Verzet tegen datascraping door AI groeit (en website-eigenaren krijgen hulp daarvoor)

Terwijl de discussie én lopende aanklachten over auteursrechten, permissies en vergoedingen met betrekking tot trainingsdata voor AI nog lopen, groeit het verzet tegen het massale 'oogsten' van data op internet door AI-bedrijven. Het scrapen van websites door bots die informatie opzuigen om AI-modellen te trainen, stuit op meer barrières die worden opgeworpen door website-eigenaren. Daarbij biedt een internetreus ook eigen hulp aan.

Lees ook: Nieuwe tool laat kunstenaars AI-modellen 'vergiftigen' als hun kunst wordt meegenomen in trainingsdata

Jasper BakkerredacteurMeer van deze auteur

Een toenemend aantal websites voorziet zijn robots.txt-bestand van expliciete verboden voor datascraping ten behoeve van AI. Dit blijkt uit een analyse van onderzoekers van het Data Provenance Initiative, wat een vrijwilligersgroep van wetenschappers is van het gerenommeerde tech-instituut MIT en diverse universiteiten over de hele wereld. Zij hebben een dramatische inkrimping blootgelegd van de hoeveelheid content die beschikbaar is voor datasets waarmee AI-modellen worden getraind.

Vervijfvoudiging

Deze afbreuk van de zogenoemde AI Data Commons is het afgelopen jaar opgekomen. Dit valt te herleiden naar het inperken van contenttoegang op het openbare web, door eigenaren van openbaar toegankelijke data en websites. Permissie voor scraper-bots is niet langer een gegeven.

Van de 14.000 websites die het Data Provenance Initiative heeft geanalyseerd, heeft zo'n 5% zijn robots.txt-bestand aangepast om AI-scrapers te verbieden. Dat klassieke tekstbestand op websites stuurt het gedrag van rondgaande bots, die ook kunnen dienen voor indexeren en dan vindbaarheid in zoekmachines. Midden vorig jaar was er bij slechts 1% van de onderzochte websites sprake van AI-blokkade in robots.txt.

AI-trainingsdata 'droogt op'

Toch lijkt de geconstateerde verandering bij 5% van de geanalyseerde websites niet groot, merkt 404 Media op, maar het beeld is dramatisch anders als er gekeken wordt naar de belangrijkste websites voor AI-trainingsdoeleinden. Dat zijn namelijk websites die geregeld worden bijgewerkt, voorzien van nieuwe en actuele informatie. Dáár ligt het percentage AI-botblokkades in robots.txt op maar liefst 28%. De New York Times concludeert dan ook dat AI-trainingsdata aan het 'opdrogen' is.

Event: Leadership in Digital, 28 maart

Digitale tijden vereisen digitale leiders en die kunnen vanuit verschillende uitgangsposities komen. CIO’s, CTO’s en andere C-level leiders in de digitale wereld krijgen stevige eisen, grote druk en flinke verantwoordelijkheden. Wat zij nodig hebben om succesvol te zijn, wordt belicht op het event Leadership in Digital, op 28 maart 2025 in Capital C (Amsterdam). Leiderschap heeft vele kanten, waar verschillend gedrag bij hoort. Kom je ontwikkelen, ontpoppen en verstevigen als digitaal leider: meld je aan.

Ondertussen reikt internetreus Cloudflare de helpende hand. Die dienstverlener voor contentdistributie op internet geeft klanten een makkelijke mogelijkheid om "alle AI-bots, scrapers en crawlers" te blokkeren. Niet alle AI-bedrijven laten hun datavergarende bots zich namelijk netjes als zodanig identificeren. Het aanpassen van robots.txt (wat een Nederlandse uitvinding is) is dus niet altijd afdoende om scraping voor AI-doeleinden te voorkomen.

OpenAI en Microsoft aangeklaagd over contentgebruik voor AI-training

New York Times klaagt OpenAI en Microsoft aan

2 min 1

Nieuws AI-wedloop

Elon Musk komt met eigen chatbot Grok, getraind op data van X (voorheen Twitter)

Grok maakt gebruik van real time informatie uit posts van X-gebruikers en is 'rebels' en 'sarcastisch'.

2 min

Nieuws muziek met AI

Google onderhandelt over muziekrechten voor training van een AI-tool

Ook Nederlandse artiesten als Anouk en Kensington vallen mogelijk onder deal.

1 min

Nieuws Artificial Intelligence

Google: pas robots.txt aan voor AI-scraping

Klassiek middel voor wel of niet indexering van webcontent zou niet meer voldoen in wereld met AI.

2 min

OpenAI en Microsoft aangeklaagd over contentgebruik voor AI-training

New York Times klaagt OpenAI en Microsoft aan

2 min 1

Nieuws AI-wedloop

Elon Musk komt met eigen chatbot Grok, getraind op data van X (voorheen Twitter)

Grok maakt gebruik van real time informatie uit posts van X-gebruikers en is 'rebels' en 'sarcastisch'.

2 min

Nieuws muziek met AI

Google onderhandelt over muziekrechten voor training van een AI-tool

Ook Nederlandse artiesten als Anouk en Kensington vallen mogelijk onder deal.

1 min

Nieuws Artificial Intelligence

Google: pas robots.txt aan voor AI-scraping

Klassiek middel voor wel of niet indexering van webcontent zou niet meer voldoen in wereld met AI.

2 min

De strategie van succesvolle organisaties: single source of truth voor alle medewerkers

Welke strategie hanteren succesvolle organisaties en hoe draagt het hanteren van 1 ‘single source of truth’ bij aan efficiëntie en groei?

3 min

Blog informatiehuishouding Partner

De onzichtbare impact van een slechte informatiehuishouding op klanttevredenheid

Waarom informatiemanagement direct invloed heeft op je klanttevredenheid.

1 min

Achtergrond Klanttevredenheid Partner

Doen wat je belooft, hét uitgangspunt voor klanttevredenheid

Hoe versterk je klantrelaties, waarborg je klanttevredenheid en voer je succesvolle projecten uit?

1 min

Meer whitepapers

Whitepaper Artificial Intelligence

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

Whitepaper Marketing

High impact business stories creëren

De route naar de zakelijke beslisser.

Whitepaper Development

De businessimpact van softwarekwaliteit

Slechte software kost geld: bugs, datalekken, downtime, klantenverlies. Doe een kwaliteitscheck en verbeter jouw bedrijfsresultaten.

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Verzet tegen datascraping door AI groeit (en website-eigenaren krijgen hulp daarvoor)

Vervijfvoudiging

AI-trainingsdata 'droogt op'

Event: Leadership in Digital, 28 maart

OpenAI en Microsoft aangeklaagd over contentgebruik voor AI-training

Elon Musk komt met eigen chatbot Grok, getraind op data van X (voorheen Twitter)

Google onderhandelt over muziekrechten voor training van een AI-tool

Google: pas robots.txt aan voor AI-scraping

OpenAI en Microsoft aangeklaagd over contentgebruik voor AI-training

Elon Musk komt met eigen chatbot Grok, getraind op data van X (voorheen Twitter)

Google onderhandelt over muziekrechten voor training van een AI-tool

Google: pas robots.txt aan voor AI-scraping

De strategie van succesvolle organisaties: single source of truth voor alle medewerkers

De onzichtbare impact van een slechte informatiehuishouding op klanttevredenheid

Doen wat je belooft, hét uitgangspunt voor klanttevredenheid

The challenge of information asymmetry

High impact business stories creëren

De businessimpact van softwarekwaliteit

Reacties

Bevestig jouw e-mailadres

Er is iets mis gegaan

Maak een gratis account aan en geniet van alle voordelen:

Maak een gratis account aan en geniet van alle voordelen: