Google: pas robots.txt aan voor AI-scraping
txt-bestand dat websites gebruiken om datavergarende bots van zoekmachines te kunnen weren of sturen wat betreft hun eigen content.
Op developersconferentie Google I/O in mei heeft de internetreus een reeks nieuwe, AI-aangedreven producten aangekondigd, plus enkele experimenten op dat gebied. Topvrouw Danielle Romain, VP of Trust, blogt dat die producten en experimenten gebaseerd zijn op jaren aan onderzoek dat Google heeft gedaan op het gebied van AI. Zij benadrukt daarbij de toewijding van Google aan het ontwikkelen van AI op verantwoorde manieren, om daarmee maximaal voordeel voor de maatschappij te kunnen behalen.
Databron en -bezit
Privacy en eigenaarschap van content zijn hierbij hete hangijzers. Dit is vooral zichtbaar bij de geruchtmakende AI-chatbot ChatGPT, die door Google-concurrent Microsoft wordt omarmd en diepgaand opgenomen in diverse producten en onlinediensten. Kritieke kwesties zijn echter mogelijke datalekkage van ingevoerde maar ook eerder al opgenomen informatie van AI-bots. Ingevoerde data betreffen informatie die gebruikers 'geven' aan AI's, maar vóór die praktische fase is er de fase van data-ingestie voor het initiële trainen van AI's.
Contentmakers van tekst, beeld, maar ook softwarecode claimen dat hun intellectuele eigendom zónder permissie is gebruikt voor het creëren van huidige AI-bots, die dan tekst, beeld, video, audio, softwarecode en meer kunnen genereren. Google lijkt deze fundamentele hobbel op de weg naar AI te willen aanspreken door website-eigenaren beter te laten bepalen of en welke content op hun sites mogen worden meegenomen in datavergaring (zogeheten scraping) voor AI-doeleinden.
Wie mag ervan profiteren?
"Wij geloven dat iedereen profiteert van een levendig content-ecosysteem. De sleutel daarbij is dat web publishers keuze en grip hebben over hun content", schrijft Romain in haar blogpost. Zij stipt daarbij aan dat zulke uitgevers dus wel voldoende kansen moeten hebben om waarde te halen uit hun participatie in het web-ecosysteem van online beschikbare content. "We zien echter dat bestaande web publisher controls zijn ontwikkeld vóór nieuwe AI-cases en gevallen van onderzoeksgebruik." Met dat laatste adresseert de Google-topvrouw problemen die in de praktijk al zijn ontstaan door het afschermen of betaald maken van content, waardoor dan wetenschappelijk onderzoek wordt gedwarsboomd.
De opkomst van nieuwe technologieën en nieuwe toepassingen geven volgens Romain kansen voor de webgemeenschap om standaarden en protocollen te ontwikkelen die de toekomstige ontwikkeling van het web steunen. Zij wijst daar naar het bijna dertig jaar oude robots.txt - dat door een Nederlander is bedacht - dat een simpele en transparante manier is voor web-uitgevers om te bepalen hoe zoekmachines hun content in kaart brengen. "Wij geloven dat het tijd is voor de web- en AI-gemeenschappen om aanvullende machine-leesbare middelen te verkennen", die moeten dan web-uitgevers keuze- en beheermogelijkheden geven voor opkomende AI- en onderzoekstoepassingen. Google begint nu de publieke discussie om complementaire protocollen te verkennen.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee