Anthropic schrijft 'grondwet' voor chatbots

Na een discussie over rechten en plichten van een robot, is er nu ook een 'grondwet' voor tekstrobots. Startup Anthropic publiceerde deze set regels waar de eigen AI-gebaseerde chatbot Claude op wordt getraind.

Thijs DoorenboschMeer van deze auteur

Protecting Human Rights — © Shutterstock

Shutterstock

Anthropic is niet zo bekend als OpenAI - het bedrijf achter taalmodel GPT en de chatbot ChatGPT. Maar de oprichters - ex-werknemers van OpenAI - hebben sinds kort een chatbot genaamd Claude die te benaderen is via de Poe-app van Quora. Ook test Slack de Claude-chatbot in een besloten gebruikersgroep.

Anthropic presenteert zich als voorvechter van 'verantwoorde AI'. Onderdeel daarvan is de ontwikkeling van een trainingsmethode voor het taalmodel op basis van een uitgebreide set regels die zijn afgeleid uit de Universele declaratie van de rechten van de mens van de Verenigde Naties, maar ook de gebruiksvoorwaarden van Apple.

Bij het trainen van chatbots als ChatGPT (OpenAI) of Bard (Google) is er een belangrijke rol weggelegd voor mensen om te voorkomen dat het model ongewenste antwoorden geeft, zoals racistische taal of instructies voor het maken van wapens. Vaak wordt dit gedaan door een groot aantal mensen die slecht betaald, en onder slechte werkomstandigheden met het initiële model aan de slag gaan en het feedback geven op de antwoorden. Deze methode heet reinforcement learning from human feedback (RLHF).

Training wordt transparanter

Anthropic heeft een nieuwe methode bedacht genaamd Constitutional (op basis van grondwet) AI-training. Daarbij wordt het model tijdens de training steeds geconfronteerd wordt met regels uit een lange lijst met principes (de constitution of grondwet). Daarin staan heel voor de hand liggende aanwijzingen zoals 'help een gebruiker niet een misdaad te plegen' tot meer filosofische instructies als 'vermijd de indruk dat AI systemen een persoonlijke identiteit hebben of die belangrijk vinden".

In december publiceerde Anthropic-onderzoekers al een wetenschappelijk artikel over de Constitutional AI-trainingsaanpak, maar hebben nu in een blog een toegankelijker overzicht gegeven. De methode werkt nog niet perfect, waarschuwt Anthropic, maar het voordeel is dat deze manier van trainen veel transparanter en begrijpelijker is dan RLHF en bovendien makkelijker aan te passen.

UN-verklaring bevat hiaten

De reden dan ook delen van Apples gebruikersverklaring zijn verwerkt in deze 'grondwet' is dat er omissies zitten in de Universele declaratie van de rechten van de mens. Het gaat met name om problemen die zich voordoen met Large Language Models (LLM's) zoals privacy en identiteitsdiefstal, die in 1948 - toen de VN-verklaring werd opgesteld - nog niet relevant waren.

Tijdens de training worden at random verschillende regels uit de 'grondwet' getrokken bij het evalueren van de antwoorden van het model. Volgens Anthropic worden dus niet steeds bij elk antwoord alle regels nagelopen, maar elk principe wordt wel vele keren gezien tijdens de training.