Google: pas robots.txt aan voor AI-scraping

Google wil de discussie aanzwengelen over nieuwe middelen voor uitgevers van webcontent om bewust om te gaan met datavergaring voor het trainen van kunstmatige intelligentie (AI). De vice-president voor vertrouwen bij de ads-gedreven zoekmachine, die ook aan AI doet, stelt dat bestaande 'web publisher controls' helaas niet meer voldoen. Hij noemt daarbij specifiek het klassieke robots.

Jasper BakkerredacteurMeer van deze auteur

© CC BY-SA 2.0 - Flickr.com

CC BY-SA 2.0 - Flickr.com

txt-bestand dat websites gebruiken om datavergarende bots van zoekmachines te kunnen weren of sturen wat betreft hun eigen content.

Op developersconferentie Google I/O in mei heeft de internetreus een reeks nieuwe, AI-aangedreven producten aangekondigd, plus enkele experimenten op dat gebied. Topvrouw Danielle Romain, VP of Trust, blogt dat die producten en experimenten gebaseerd zijn op jaren aan onderzoek dat Google heeft gedaan op het gebied van AI. Zij benadrukt daarbij de toewijding van Google aan het ontwikkelen van AI op verantwoorde manieren, om daarmee maximaal voordeel voor de maatschappij te kunnen behalen.

Databron en -bezit

Privacy en eigenaarschap van content zijn hierbij hete hangijzers. Dit is vooral zichtbaar bij de geruchtmakende AI-chatbot ChatGPT, die door Google-concurrent Microsoft wordt omarmd en diepgaand opgenomen in diverse producten en onlinediensten. Kritieke kwesties zijn echter mogelijke datalekkage van ingevoerde maar ook eerder al opgenomen informatie van AI-bots. Ingevoerde data betreffen informatie die gebruikers 'geven' aan AI's, maar vóór die praktische fase is er de fase van data-ingestie voor het initiële trainen van AI's.

Contentmakers van tekst, beeld, maar ook softwarecode claimen dat hun intellectuele eigendom zónder permissie is gebruikt voor het creëren van huidige AI-bots, die dan tekst, beeld, video, audio, softwarecode en meer kunnen genereren. Google lijkt deze fundamentele hobbel op de weg naar AI te willen aanspreken door website-eigenaren beter te laten bepalen of en welke content op hun sites mogen worden meegenomen in datavergaring (zogeheten scraping) voor AI-doeleinden.

Wie mag ervan profiteren?

"Wij geloven dat iedereen profiteert van een levendig content-ecosysteem. De sleutel daarbij is dat web publishers keuze en grip hebben over hun content", schrijft Romain in haar blogpost. Zij stipt daarbij aan dat zulke uitgevers dus wel voldoende kansen moeten hebben om waarde te halen uit hun participatie in het web-ecosysteem van online beschikbare content. "We zien echter dat bestaande web publisher controls zijn ontwikkeld vóór nieuwe AI-cases en gevallen van onderzoeksgebruik." Met dat laatste adresseert de Google-topvrouw problemen die in de praktijk al zijn ontstaan door het afschermen of betaald maken van content, waardoor dan wetenschappelijk onderzoek wordt gedwarsboomd.

De opkomst van nieuwe technologieën en nieuwe toepassingen geven volgens Romain kansen voor de webgemeenschap om standaarden en protocollen te ontwikkelen die de toekomstige ontwikkeling van het web steunen. Zij wijst daar naar het bijna dertig jaar oude robots.txt - dat door een Nederlander is bedacht - dat een simpele en transparante manier is voor web-uitgevers om te bepalen hoe zoekmachines hun content in kaart brengen. "Wij geloven dat het tijd is voor de web- en AI-gemeenschappen om aanvullende machine-leesbare middelen te verkennen", die moeten dan web-uitgevers keuze- en beheermogelijkheden geven voor opkomende AI- en onderzoekstoepassingen. Google begint nu de publieke discussie om complementaire protocollen te verkennen.

Gerelateerde artikelen

Nieuws Artificial Intelligence

GPT-4 gaat nieuwe fase in

Einde aan gebruik van GPT-3.

1 min

Nieuws Marketing

Twitter lijkt uit Google-resultaten te verdwijnen

Google halveert geïndexeerde Twitter-URL's, na grote storing en maatregelen Musk.

2 min

Nieuws Artificial Intelligence

Reddit gaat geld vragen voor AI-trainingsdata-API

Gratis leegtrekken van discussieforums is voorbij.

2 min

Nieuws Development

Nederlandse AI-startup lanceert manier om chatbots razendsnel informatie te voeden

Uitkomst voor webshops, nieuwswebsites en klantenservices.

1 min

Gerelateerde artikelen

Nieuws Artificial Intelligence

GPT-4 gaat nieuwe fase in

Einde aan gebruik van GPT-3.

1 min

Nieuws Marketing

Twitter lijkt uit Google-resultaten te verdwijnen

Google halveert geïndexeerde Twitter-URL's, na grote storing en maatregelen Musk.

2 min

Nieuws Artificial Intelligence

Reddit gaat geld vragen voor AI-trainingsdata-API

Gratis leegtrekken van discussieforums is voorbij.

2 min

Nieuws Development

Nederlandse AI-startup lanceert manier om chatbots razendsnel informatie te voeden

Uitkomst voor webshops, nieuwswebsites en klantenservices.

1 min

Gerelateerde artikelen

Blog informatiehuishouding Partner

De onzichtbare impact van een slechte informatiehuishouding op klanttevredenheid

Waarom informatiemanagement direct invloed heeft op je klanttevredenheid.

1 min

Blog single source of truth Partner

De strategie van succesvolle organisaties: single source of truth voor alle medewerkers

Welke strategie hanteren succesvolle organisaties en hoe draagt het hanteren van 1 ‘single source of truth’ bij aan efficiëntie en groei?

3 min

Achtergrond AI Partner

FrieslandCampina's AI Journey: From Grass to Glass, Data to Dairy

From Grass to Glass, Data to Dairy

2 min

Meer whitepapers

Whitepaper Artificial Intelligence

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

Whitepaper Marketing

High impact business stories creëren

De route naar de zakelijke beslisser.

Whitepaper Artificial Intelligence

Global Data Insight Survey: Datatrends voor Data- en AI-leiders

Beschikt uw bedrijf over een formele datastrategie waarin de vereisten voor huidige of geplande IT-locaties worden behandeld?

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Toegang tot 3 PRO artikelen per maand

Inclusief CTO interviews, podcasts, digitale specials en whitepapers

Volg je favoriete topics

Heb je al een account? Log in
Maak een gratis account aan en geniet van alle voordelen:

Toegang tot 3 PRO artikelen per maand

Inclusief CTO interviews, podcasts, digitale specials en whitepapers

Volg je favoriete topics

Heb je al een account? Log in

AG Connect is sinds 1967 de essentiële bron van ideeën en informatie die betekenis geven aan een wereld in constante transformatie. Wij laten zien hoe tech elk aspect van ons leven verandert, van onze organisaties, ons werk en onze carrière tot onze cultuur, wetenschap en maatschappij.
Lees ons manifest >

Over ons

Abonneren

Adverteren

Contact

Colofon

Community

Events

Nieuwsbrieven

Vacatures

Whitepapers

Volg ons

Redactionele partner

© 2023 AG Connect

Algemene Voorwaarden & Copyrights

Privacy & Cookies

Powered by