De 'verboden woorden' van GitHub Copilot gekraakt
'Israel' staat op gelijke voet met 'Palestine', 'communist', 'liberal', 'socialist' en een flinke reeks harde scheldwoorden. Universitair docent Brendan Dolan-Gavitt van de NYU Tandon School of Engineering heeft via Githubs extensie voor Visual Studio Code de lijst van woorden achterhaald die developers niet mogen gebruiken. De extensie voor Microsofts ontwikkelpakket koppelt die software aan de Copilot-dienst.
Extensie voor Visual Studio Code
De Microsoft-extensie is geschreven in JavaScript en bevat een lijst aan hashes die worden gecontroleerd door GitHub Copilot. Die door Microsoft overgenomen online-dienst voor software-ontwikkeling vergelijkt de input van developers met deze lijst van versleutelde woorden. De vergelijking wordt gedaan zowel vóór weergave op het scherm als ook voor de inhoudelijke functie van codesuggesties.
Dolan-Gavitt heeft de lijst van versleutelde woorden uit de extensie gehaald en er enkele kraakmethodes - plus optimalisaties - op los gelaten. Daarbij heeft hij grafische processors ingezet om de hashes te vergelijken met een woordenlijst afkomstig van de beruchte forumsite 4chan. Ook heeft de wetenschapper een plugin geschreven die aanhaakt op wachtwoordenkraaktool John the Ripper, meldt The Register.
Geen aanstoot geven
Zo is een lijst van 854.653 mogelijke lettercombinaties ontstaan die vervolgens zijn gereduceerd naar 1170 daadwerkelijke woorden. Deze woorden worden door GitHub geweerd wat betreft input voor zijn AI-aangedreven pair-programming dienst. Vooraf heeft het bedrijf al wel aangegeven dat Copilot, wat nu als technische preview beschikbaar is, filters heeft om aanstootgevende woorden te verwijderen.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee