Google laat robot tegelijk handelen en leren

Robots die reageren op hun omgeving, hebben in hun handelen vaak iets houterigs. Dat is het gevolg van de vaste volgorde van observeren - denken - handelen, waarmee robots hun acties voorbereiden. Door de besluitvorming over de volgende stap te starten terwijl de vorige handeling wordt ingezet, krijg je veel soepeler, maar ook minder foutgevoelige bewegingen.

Thijs DoorenboschMeer van deze auteur

robothand — © CC0 - Unsplash.com

CC0 - Unsplash.com

Onderzoekers van Google Brain, Google X en de University of California Berkeley beschrijven hun nieuwe aanpak in een wetenschappelijk artikel (pdf) op Arxiv.org. De methode werkt in principe voor verschillende vormen van kunstmatige intelligentie - een agent - , maar is het best zichtbaar bij het handelen van robots.

De aanpak die zij beschrijven, lijkt veel meer op de manier waarop het menselijk brein werkt. De hersenen krijgen een permanente stroom aan input van sensoren zoals ogen, oren, neus en huid en passen voortdurend hun acties aan op de laatst beschikbare informatie. Zelflerende systemen daarentegen gebruiken een vaste volgorde waarbij ze de input verwerken, de beste reactie berekenen en die vervolgens uitvoeren. Het systeem gaat er dan van uit dat de omgeving niet verandert, nadat de input is verzameld.

In veel gevallen gaat dat goed, vooral in gesimuleerde omgevingen. Maar veel minder vaak in de reële wereld die veel meer aan verandering onderhevig is. Met de nieuwe aanpak kan nieuwe informatie er voor zorgen dat een actie die is ingezet, wordt gecorrigeerd of zelfs stopt.

Onderstaande video illustreert het effect heel goed:

De aanpak gaat uit van standaard reinforcement learning methoden die een agent naar een doel leiden met behulp van beloningen. De agent krijgt een status uit een serie beschikbare statussen en kiest op basis van een beleid een actie uit een serie beschikbare acties. Vanuit de veranderende omgeving komt de volgende status door en volgt een beloning, zodat de agent aanleert uit elke status het maximaal haalbare te krijgen.

Daaraan hebben de wetenschappers twee nieuwe eigenschappen aan toegevoegd om tot hun 'concurrent knowlegde' te komen, namelijk action selection time en vector-to-go. Vector to go is de laatste actie die wordt uitgevoerd op het moment dat de status van de omgeving opnieuw wordt bepaald.

Zo kan de agent een nieuwe status doorkrijgen tijdens het uitvoeren van de eerste actie. Het beleid selecteert daarop een nieuwe actie ongeacht of de voorgaande actie is afgerond. Daardoor kan de voorgaande actie worden gestopt of bijgestuurd.

Robot werkt sneller en vloeiender

Experimenten met de nieuwe aanpak waarbij een robotarm objecten moet oppakken, wijzen uit dat de snelheidswinst wel kan oplopen tot 49 procent. Bovendien waren de bewegingen veel vloeiender.

De onderzoekers zien veel toepassingen van hun aanpak bijvoorbeeld bij het ontwerpen van algoritmen voor zelfsturende auto's.