TNO zoekt datahulp voor Nederlands AI-taalmodel GPT-NL
Innovatie- en onderzoeksinstituut TNO zoekt mensen en partijen die willen meewerken aan de ontwikkeling van GPT-NL. Dat grote taalmodel (large language model, LLM) voor generatieve AI (genAI) wordt ontwikkeld door TNO, onderwijsorganisatie SURF en het Nederlands Forensisch Instituut (NFI).

"De opkomst van LLMs (Large Language Models) heeft veel teweeggebracht, maar vaak zijn deze modellen getraind op data die niet rechtmatig is verkregen. Met GPT-NL pakken we dit anders aan: voor de ontwikkeling van ons taalmodel gebruiken we alleen data die we rechtmatig hebben verkregen", schrijft TNO in een oproep op social network LinkedIn.
Datascraping en e-bookpiraterij
Een voornaam doel bij GPT-NL is om op verantwoorde wijze gebruik te maken van data voor het trainen van het onderliggende taalmodel. Dit in tegenstelling tot LLM's van techreuzen als Meta, die op grootschalige wijze informatie op internet hebben gescraped én in illegaal samengestelde verzamelingen. Een voorbeeld van dat laatste is het gebruik van de 'piratendatabase' LibGen, met daarin 7,5 miljoen illegaal gekopieerde e-books en wetenschappelijke papers.
Meta wordt aangeklaagd voor onrechtmatig datagebruik, om zijn zelfontwikkelde AI te trainen. Uit rechtbankdocumenten is begin dit jaar gebleken dat CEO Mark Zuckerberg het gebruik van LibGen zelf heeft goedgekeurd.
Auteursrechthebbenden
Bij het ontwikkelen van GPT-NL wordt een verantwoorde, juridisch veiligere aanpak gehanteerd. De drie organisaties die het Nederlandse taalmodel ontwikkelen werken samen met auteursrechthebbenden en dataproviders. Laatstgenoemden omvatten uitgeverijen, mediabedrijven, archieven, bibliotheken, en organisaties als de Vereniging Nederlandse Gemeenten (VNG).
Voor de ontwikkeling van GPT-NL wordt nu een oproep gedaan voor meer meewerkers. "Ben je iemand die kennis heeft van de ontwikkelingen rondom LLMs of een partij die betrokken is bij de bescherming van auteursrechten? Dan willen we graag met jou samenwerken. Of je nu beslisbevoegd bent of het mandaat hebt om draagvlak binnen je organisatie te creëren, we nodigen je uit om mee te doen en bij te dragen aan deze belangrijke ontwikkeling in Nederland."
3 stappen om mee te doen
Geïnteresseerden kunnen zich aanmelden "in 3 simpele stappen", aldus TNO. Deze kunnen worden gezet op de samenwerkingspagina van de GPT-NL website. De eerste stap is het bekijken van de licentievoorwaarden, waarin onder meer is vastgelegd dat data eigendom blijven van de rechtmatige eigenaar.
De tweede stap is het hebben van een kennismaking, gevolgd door het ondertekenen van het officiële contract (de content contributor agreement). Daarna kunnen data veilig gedeeld worden, waarbij de makers van GPT-NL nog eventuele persoonsgegevens uit aangeleverde teksten gaan verwijderen.
'Divers en eerlijk taalmodel'
De derde stap is voeren van een slotgesprek. "Daarna ben je KLAAR! Met jouw teksten zijn we een stuk dichter bij een divers en eerlijk taalmodel. Als dataleverancier ben je nu ook onderdeel van de Content Board. Vanuit hier wordt meegedacht aan de toekomst van GPT-NL." De sluitingsdatum voor deze datadeelname ligt op 15 april.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee