Hoe vind je de juiste prompt voor genAI? Met genAI!

Onderzoekers van Google DeepMind hebben een programma gemaakt genaamd OPRO dat large language models (LLM's) met behulp van AI laat zoeken naar de prompt die het beste een taak volbrengt.

Thijs DoorenboschMeer van deze auteur

Eigenlijk is OPRO een optimalisatieprogramma dat een gebruiker in staat stelt een ideaal te beschrijven in natuurlijke taal. "Vervolgens gaat het model iteratief nieuwe oplossingen genereren op basis van de beschrijving van het probleem en de eerder gevonden oplossingen", beschrijft DeepMind-onderzoeker Chengrun Yang in een artikel dat op arXiv is gepubliceerd.

Een aanpak zoals die met OPRO wordt gevolgd, kan een bedreiging zijn voor een hele generatie mensen die verwachten met een specialisatie in prompt engineering een nieuw vakgebied te hebben aangeboord. De generatieve AI kan zo hun werk gelijk weer overbodig maken.

Net als een mens

Een belangrijk element van OPRO is de Meta-Prompt, een algoritme dat evalueert hoe goed eerdere prompts presteerden in het oplossen van een probleem. Vervolgens creëert het weer een aantal nieuwe prompts om zo de beste te vinden. Eigenlijk lijkt dat wat OPRO doet sterk op wat iemand zelf zou doen, als op basis van een prompt het LLM niet direct een antwoord naar volle tevredenheid geeft. Ook dan ga je door de prompt te wijzigen proberen een beter antwoord van het LLM te krijgen. OPRO doet dat alleen wat sneller.

Volgens de onderzoekers werkt OPRO met zowel Googles eigen PaLM2 large language model, als met GPT-3 en GPT-4. Een van de tests die de DeepMind-onderzoekers deden, is een benchmarktest ontworpen door OpenAI, genaamd GSM8K. "Betty bakt 4 keer 2 dozijn koekjes in een week. Als deze koekjes eerlijk worden verdeeld onder 16 mensen, hoeveel koekjes eet ieder persoon?" Het antwoord is zes.

Opdelen in denkstappen

De onderzoekers bouwden voor OPRO voort op een publicatie van Takeshi Kojima, die zowel bij Google als bij de universiteit van Tokyo werkt. Hij liet zien dat als je een LLM met de prompt dwingt een stap-voor-stap-aanpak te volgen en er een voorbeeld bij geeft het taalmodel een ketenredenatie gaat volgen. De conclusie is dat OPRO in verschillende benchmarks soms meer dan 50% betere prompts genereert dan mensen. Maar er is meer werk te doen, vinden de onderzoekers. Zo willen ze bijvoorbeeld OPRO ook laten leren van 'negatieve' voorbeelden.

Overigens is het idee dat de Google-onderzoekers hier beschrijven, niet helemaal nieuw, memoreert ZDNet. Microsoft heeft begin dit jaar al Automatic Prompt Optimization geopperd, waarbij ook het idee was dat het schrijven van een prompt voor een LLM een activiteit is die zich leent voor een optimalisatieproces. Maar Microsoft beperkte zich tot het optimaliseren van de prompt zelf. De onderzoekers van DeepMind laten het algoritme zelf prompts genereren waarvan de uitkomsten automatisch worden geëvalueerd.