Nieuws Artificial Intelligence Juridisch

15 augustus 2023 leestijd 2 minuten 0 reacties

Websites blokkeren AI-scraping door GPTBot

Grote krant en techsite blokkeren GPTBot
Uitleg hoe OpenAI's webcrawler valt te weren
Klassiek middel voor webcontent werkt ook voor moderne AI-scraping
Lees ook: Microsoft verbiedt AI-jailbreaking

Jasper BakkerredacteurMeer van deze auteur

Datavergaring door AI-bedrijven voor het trainen van hun AI om daarop diensten te baseren, is een omstreden praktijk. Terwijl rechtszaken daarover lopen, is er nu de mogelijkheid om de contentvergarende bot van OpenAI te weren van websites. De Amerikaanse krant The New York Times en technieuwssite The Verge zijn al overgegaan tot het blokkeren van GPTBot.

Naast die twee bekende namen in het medialandschap hebben ook individuele schrijvers besloten om de webcrawler van OpenAI in de ban te doen, meldt VentureBeat. Dit zijn de bekende techjournalist Casey Newton, die publiceert op het door hem opgerichte Platformer en voorheen in dienst was bij The Verge, en redacteur annex uitgever Neil Clarke van sf- en fantasymagazine Clarkesworld.

"Wij blokkeren nu nog een scrapingbot van OpenAI", meldt Clarke op Twitter (tegenwoordig X geheten). Hij geeft daarbij aan dat blokkeren van die webscrapende bot ook te doen is voor andere websites en auteurs. Het is vooralsnog niet duidelijk of GPTBot dezelfde webcrawler is als die OpenAI eerder heeft ingezet, of dat die andere geheim gehouden contentvergarende bot nog in gebruik is.

De content die AI-bedrijf OpenAI eerder heeft vergaard voor het trainen van zijn geruchtmakende bot ChatGPT 'loopt' maar tot september 2021. Informatie die daarna online is gepubliceerd, is strikt gezien onbekend voor de bekende AI-chatbot. Combinatie met actuelere datasets, zoals die van Microsofts zoekmachine Bing, kan echter wel voor enige mate van actualiteit zorgen in de 'kennis' die een AI-bot tot zijn beschikking heeft.

The New York Times heeft een verbod op AI-scraping opgenomen in zijn gebruiksvoorwaarden, meldt onder meer AdWeek. Deze nieuwe voorwaarden zijn per 3 augustus van kracht geworden. AI-bedrijven zouden nu ook in gesprek zijn met uitgevers om licentiedeals te sluiten, waardoor ze gepubliceerde informatie toch mogen gebruiken voor hun (commerciële) AI-doeleinden.

Google: pas robots.txt aan voor AI-scraping

Klassiek middel voor wel of niet indexering van webcontent zou niet meer voldoen in wereld met AI.

2 min

Nieuws Artificial Intelligence

Ook Stack Overflow eist tolgeld voor AI-trainingsdata

Ontwikkelen van AI-bots was al duur, maar dreigt nu nog duurder te worden.

2 min

Nieuws muziek met AI

Google onderhandelt over muziekrechten voor training van een AI-tool

Ook Nederlandse artiesten als Anouk en Kensington vallen mogelijk onder deal.

1 min

Nieuws Development

Nederlander bedacht robotwerend bestandje 25 jaar terug

Google maakt de code nu open source in de hoop dat deze tot de facto standaard uitgroeit.

1 min

Google: pas robots.txt aan voor AI-scraping

Klassiek middel voor wel of niet indexering van webcontent zou niet meer voldoen in wereld met AI.

2 min

Nieuws Artificial Intelligence

Ook Stack Overflow eist tolgeld voor AI-trainingsdata

Ontwikkelen van AI-bots was al duur, maar dreigt nu nog duurder te worden.

2 min

Nieuws muziek met AI

Google onderhandelt over muziekrechten voor training van een AI-tool

Ook Nederlandse artiesten als Anouk en Kensington vallen mogelijk onder deal.

1 min

Nieuws Development

Nederlander bedacht robotwerend bestandje 25 jaar terug

Google maakt de code nu open source in de hoop dat deze tot de facto standaard uitgroeit.

1 min

GPTBot

OpenAI heeft recent zijn GPTBot officieel onthuld. Daarbij heeft het AI-bedrijf ook instructies verstrekt hoe websites datavergaring door die webcrawlende bot kunnen weren. Daarvoor is een relatief eenvoudige wijziging nodig in het klassieke robots.txt-bestand, dat van oudsher dient om indexering door contentcrawlende (ro)bots van zoekmachines te kunnen bepalen.

GPTBot valt te weren door slechts twee regels tekst toe te voegen aan robots.txt :

User-agent: GPTBot
Disallow: /

Meer fijnmazig blokkeren is ook mogelijk, door dan Disallow en Allow toe te voegen voor specifieke mappen (directories) op een site. Daarnaast geeft OpenAI ook aan vanaf welke IP-adressen zijn GPTBot functioneert, zodat die zijn te blokkeren op firewallniveau.

Het is echter nog de vraag of het blokkeren van deze ene bot, van dit ene AI-bedrijf, afdoende is om geheel te voorkomen dat content wordt opgenomen in datasets voor AI-training. AI-bedrijven kunnen andere bots gebruiken en ook op andere manieren aan content komen, hoewel daar dus nog rechtszaken over lopen. Daarnaast kan het in de toekomst wellicht negatief uitpakken voor websites als zij niet - of weinig - voorkomen in de datasets van AI's als die dan mogelijk een voorname toegangspoort voor veel gebruikers zijn. Ars Technica noemt als verduidelijkend voorbeeld het scenario dat een website in 2002 indexering door Google zou hebben geblokkeerd.

We are now blocking another one of OpenAI's scraping bots. You can too. (I don't know if this is the secret one we couldn't block before or if that one is still in use.)https://t.co/qJqlmTZzAN
— clarkesworld (@clarkesworld) August 7, 2023

Identity Management Day 2025: 10 tips om identiteitsdiefstal bij medewerkers te voorkomen

KnowBe4 presenteert 10 tips om identiteitsdiefstal bij medewerkers te voorkomen

2 min

Nieuws phishing, ai Partner

AI-aangedreven muterende phishingcampagnes zijn in opmars, waarschuwt KnowBe4-rapport

2 min

Achtergrond Leadership Partner

Staying ahead as a leader: learning from failure

The digital landscape is changing fast. So how do you stay ahead of the game as a digital leader?

2 min

Meer whitepapers

Whitepaper Artificial Intelligence

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

Whitepaper Marketing

High impact business stories creëren

De route naar de zakelijke beslisser.

Whitepaper Security

Smarter Security onderzoeksrapport 2023

Versterk jouw IT-omgeving tegen cyberdreigingen met effectieve maatregelen, methoden en tips voor budgetverdeling en capaciteitsbeheer.

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Websites blokkeren AI-scraping door GPTBot

Google: pas robots.txt aan voor AI-scraping

Ook Stack Overflow eist tolgeld voor AI-trainingsdata

Google onderhandelt over muziekrechten voor training van een AI-tool

Nederlander bedacht robotwerend bestandje 25 jaar terug

Google: pas robots.txt aan voor AI-scraping

Ook Stack Overflow eist tolgeld voor AI-trainingsdata

Google onderhandelt over muziekrechten voor training van een AI-tool

Nederlander bedacht robotwerend bestandje 25 jaar terug

GPTBot

Identity Management Day 2025: 10 tips om identiteitsdiefstal bij medewerkers te voorkomen

AI-aangedreven muterende phishingcampagnes zijn in opmars, waarschuwt KnowBe4-rapport

Staying ahead as a leader: learning from failure

The challenge of information asymmetry

High impact business stories creëren

Smarter Security onderzoeksrapport 2023

Reacties

Bevestig jouw e-mailadres

Er is iets mis gegaan

Maak een gratis account aan en geniet van alle voordelen:

Maak een gratis account aan en geniet van alle voordelen:

Websites blokkeren AI-scraping door GPTBot

Google: pas robots.txt aan voor AI-scraping

Ook Stack Overflow eist tolgeld voor AI-trainingsdata

Google onderhandelt over muziekrechten voor training van een AI-tool

Nederlander bedacht robotwerend bestandje 25 jaar terug

Google: pas robots.txt aan voor AI-scraping

Ook Stack Overflow eist tolgeld voor AI-trainingsdata

Google onderhandelt over muziekrechten voor training van een AI-tool

Nederlander bedacht robotwerend bestandje 25 jaar terug

GPTBot﻿

Identity Management Day 2025: 10 tips om identiteitsdiefstal bij medewerkers te voorkomen

AI-aangedreven muterende phishingcampagnes zijn in opmars, waarschuwt KnowBe4-rapport

Staying ahead as a leader: learning from failure

The challenge of information asymmetry

High impact business stories creëren

Smarter Security onderzoeksrapport 2023

Reacties

GPTBot