Websites blokkeren AI-scraping door GPTBot
- Grote krant en techsite blokkeren GPTBot
- Uitleg hoe OpenAI's webcrawler valt te weren
- Klassiek middel voor webcontent werkt ook voor moderne AI-scraping
- Lees ook: Microsoft verbiedt AI-jailbreaking
Datavergaring door AI-bedrijven voor het trainen van hun AI om daarop diensten te baseren, is een omstreden praktijk. Terwijl rechtszaken daarover lopen, is er nu de mogelijkheid om de contentvergarende bot van OpenAI te weren van websites. De Amerikaanse krant The New York Times en technieuwssite The Verge zijn al overgegaan tot het blokkeren van GPTBot.
Naast die twee bekende namen in het medialandschap hebben ook individuele schrijvers besloten om de webcrawler van OpenAI in de ban te doen, meldt VentureBeat. Dit zijn de bekende techjournalist Casey Newton, die publiceert op het door hem opgerichte Platformer en voorheen in dienst was bij The Verge, en redacteur annex uitgever Neil Clarke van sf- en fantasymagazine Clarkesworld.
"Wij blokkeren nu nog een scrapingbot van OpenAI", meldt Clarke op Twitter (tegenwoordig X geheten). Hij geeft daarbij aan dat blokkeren van die webscrapende bot ook te doen is voor andere websites en auteurs. Het is vooralsnog niet duidelijk of GPTBot dezelfde webcrawler is als die OpenAI eerder heeft ingezet, of dat die andere geheim gehouden contentvergarende bot nog in gebruik is.
De content die AI-bedrijf OpenAI eerder heeft vergaard voor het trainen van zijn geruchtmakende bot ChatGPT 'loopt' maar tot september 2021. Informatie die daarna online is gepubliceerd, is strikt gezien onbekend voor de bekende AI-chatbot. Combinatie met actuelere datasets, zoals die van Microsofts zoekmachine Bing, kan echter wel voor enige mate van actualiteit zorgen in de 'kennis' die een AI-bot tot zijn beschikking heeft.
The New York Times heeft een verbod op AI-scraping opgenomen in zijn gebruiksvoorwaarden, meldt onder meer AdWeek. Deze nieuwe voorwaarden zijn per 3 augustus van kracht geworden. AI-bedrijven zouden nu ook in gesprek zijn met uitgevers om licentiedeals te sluiten, waardoor ze gepubliceerde informatie toch mogen gebruiken voor hun (commerciële) AI-doeleinden.
GPTBot
OpenAI heeft recent zijn GPTBot officieel onthuld. Daarbij heeft het AI-bedrijf ook instructies verstrekt hoe websites datavergaring door die webcrawlende bot kunnen weren. Daarvoor is een relatief eenvoudige wijziging nodig in het klassieke robots.txt-bestand, dat van oudsher dient om indexering door contentcrawlende (ro)bots van zoekmachines te kunnen bepalen.
GPTBot valt te weren door slechts twee regels tekst toe te voegen aan robots.txt :
User-agent: GPTBot
Disallow: /
Meer fijnmazig blokkeren is ook mogelijk, door dan Disallow en Allow toe te voegen voor specifieke mappen (directories) op een site. Daarnaast geeft OpenAI ook aan vanaf welke IP-adressen zijn GPTBot functioneert, zodat die zijn te blokkeren op firewallniveau.
Het is echter nog de vraag of het blokkeren van deze ene bot, van dit ene AI-bedrijf, afdoende is om geheel te voorkomen dat content wordt opgenomen in datasets voor AI-training. AI-bedrijven kunnen andere bots gebruiken en ook op andere manieren aan content komen, hoewel daar dus nog rechtszaken over lopen. Daarnaast kan het in de toekomst wellicht negatief uitpakken voor websites als zij niet - of weinig - voorkomen in de datasets van AI's als die dan mogelijk een voorname toegangspoort voor veel gebruikers zijn. Ars Technica noemt als verduidelijkend voorbeeld het scenario dat een website in 2002 indexering door Google zou hebben geblokkeerd.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee