Overslaan en naar de inhoud gaan

TNO zoekt datahulp voor Nederlands AI-taalmodel GPT-NL

Innovatie- en onderzoeksinstituut TNO zoekt mensen en partijen die willen meewerken aan de ontwikkeling van GPT-NL. Dat grote taalmodel (large language model, LLM) voor generatieve AI (genAI) wordt ontwikkeld door TNO, onderwijsorganisatie SURF en het Nederlands Forensisch Instituut (NFI). 

handen op elkaar, team, samenwerken
samenwerking
Shutterstock

"De opkomst van LLMs (Large Language Models) heeft veel teweeggebracht, maar vaak zijn deze modellen getraind op data die niet rechtmatig is verkregen. Met GPT-NL pakken we dit anders aan: voor de ontwikkeling van ons taalmodel gebruiken we alleen data die we rechtmatig hebben verkregen", schrijft TNO in een oproep op social network LinkedIn.

Datascraping en e-bookpiraterij

Een voornaam doel bij GPT-NL is om op verantwoorde wijze gebruik te maken van data voor het trainen van het onderliggende taalmodel. Dit in tegenstelling tot LLM's van techreuzen als Meta, die op grootschalige wijze informatie op internet hebben gescraped én in illegaal samengestelde verzamelingen. Een voorbeeld van dat laatste is het gebruik van de 'piratendatabase' LibGen, met daarin 7,5 miljoen illegaal gekopieerde e-books en wetenschappelijke papers.

Meta wordt aangeklaagd voor onrechtmatig datagebruik, om zijn zelfontwikkelde AI te trainen. Uit rechtbankdocumenten is begin dit jaar gebleken dat CEO Mark Zuckerberg het gebruik van LibGen zelf heeft goedgekeurd.

Auteursrechthebbenden

Bij het ontwikkelen van GPT-NL wordt een verantwoorde, juridisch veiligere aanpak gehanteerd. De drie organisaties die het Nederlandse taalmodel ontwikkelen werken samen met auteursrechthebbenden en dataproviders. Laatstgenoemden omvatten uitgeverijen, mediabedrijven, archieven, bibliotheken, en organisaties als de Vereniging Nederlandse Gemeenten (VNG).

Voor de ontwikkeling van GPT-NL wordt nu een oproep gedaan voor meer meewerkers. "Ben je iemand die kennis heeft van de ontwikkelingen rondom LLMs of een partij die betrokken is bij de bescherming van auteursrechten? Dan willen we graag met jou samenwerken. Of je nu beslisbevoegd bent of het mandaat hebt om draagvlak binnen je organisatie te creëren, we nodigen je uit om mee te doen en bij te dragen aan deze belangrijke ontwikkeling in Nederland."

3 stappen om mee te doen

Geïnteresseerden kunnen zich aanmelden "in 3 simpele stappen", aldus TNO. Deze kunnen worden gezet op de samenwerkingspagina van de GPT-NL website. De eerste stap is het bekijken van de licentievoorwaarden, waarin onder meer is vastgelegd dat data eigendom blijven van de rechtmatige eigenaar.

De tweede stap is het hebben van een kennismaking, gevolgd door het ondertekenen van het officiële contract (de content contributor agreement). Daarna kunnen data veilig gedeeld worden, waarbij de makers van GPT-NL nog eventuele persoonsgegevens uit aangeleverde teksten gaan verwijderen.

'Divers en eerlijk taalmodel'

De derde stap is voeren van een slotgesprek. "Daarna ben je KLAAR! Met jouw teksten zijn we een stuk dichter bij een divers en eerlijk taalmodel. Als dataleverancier ben je nu ook onderdeel van de Content Board. Vanuit hier wordt meegedacht aan de toekomst van GPT-NL." De sluitingsdatum voor deze datadeelname ligt op 15 april.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in