Top-25 Nederlandse informatici
De keuze van de bronnen op basis waarvan de citaties worden berekend is van grote invloed op de resultaten. Het ligt voor de hand om gebruik te maken van bronnen die vrij beschikbaar zijn op internet. Immers, dit medium is indertijd ontstaan om (onder andere) onderzoekers in staat te stellen snel gegevens en resultaten uit te wisselen. Hoewel de validiteit van bronnen die beschikbaar zijn op internet niet altijd te waarborgen valt, en er nog altijd bronnen zijn die niet elektronisch verschijnen, levert dit medium een interessant startpunt voor het achterhalen van het aantal citaties. Citeseer is een gespecialiseerde zoekmachine die op internet roulerende informaticagerelateerde publicaties scant en opslaat. Hiermee is het een belangrijk, maar daarom zeker niet minder verguisd middel voor bronnenonderzoek in de informatica. Bovendien worden uit deze publicaties automatisch de citaties gefilterd. Enkele jaren geleden bracht deze zoekmachine jaarlijks een lijst uit van de 10.000 meest geciteerde informatici ter wereld, waarna het plotsklaps stil werd omtrent Citeseer. Zo’n half jaar geleden is Citeseer een tweede leven begonnen, met nieuwe sponsoren en een nieuwe server. Begin juli verscheen weer een nieuwe lijst met veel-geciteerden. Op basis van deze lijst is een top-25 samengesteld van wereldwijd meest geciteerde informatici die werkzaam zijn aan een informatica-afdeling van een Nederlandse universiteit (zie tabel). Uit de tabel blijkt dat de Vrije Universiteit en de Universiteit van Amsterdam de ranglijst aanvoeren met ieder maar liefst vijf veel-geciteerden in hun gelederen. Zij worden op de voet gevolgd door de Technische Universiteit Eindhoven en de Radboud Universiteit Nijmegen met ieder vier top-25-onderzoekers aan boord. De Universiteit Utrecht en de Universiteit Twente huisvesten beide drie top-25-onderzoekers. Hekkensluiter is de Rijks Universiteit Leiden met twee veel-geciteerde onderzoekers. Des te merkwaardiger is de afwezigheid van de Technische Universiteit Delft, de Rijks Universiteit Groningen, de Open Universiteit en de Universiteit van Maastricht, waar ook opleidingen informatica zitten. Vergelijking De verschijningsdatum van de nieuwe Citeseer-lijst viel dit jaar nagenoeg samen met de presentatie van een andere lijst: de resultaten van de onderzoeksvisitatie van de informaticagroepen van de Nederlandse universiteiten (met uitzondering van de universiteiten van Delft, Leiden en de Open Universiteit). Zo’n onderzoeksvisitatie wordt uitgevoerd door een commissie bestaande uit gerenommeerden uit het buitenland die actief zijn binnen hetzelfde vakgebied. Deze commissie beoordeelt de deelnemende informaticagroepen op onder andere de kwaliteit, kwantiteit en toekomstvisie van het onderzoek. Uiteindelijk kent de commissie cijfers toe aan de categorieën onderzoeksprogramma, kwaliteit, productiviteit, relevantie en vitaliteit & haalbaarheid. De resultaten schetsen hoe het in brede zin gesteld is met het onderzoek van een groep in de periode 1996-2001. Een objectieve vergelijking van beide lijsten is niet mogelijk. Immers, de onderzoeksvisitatie baseert haar oordeel niet alleen op publicaties en hun impact, maar ook op het functioneren van de groep en haar toekomstperspectieven. Het eindoordeel bestaat dus niet uit 100 procent te kwantificeren gegevens. Ook de periode waarop de cijfers van beide lijsten zijn gebaseerd zijn anders: de onderzoekscommissie baseert zich op een periode van vijf jaar, terwijl Citeseer een weerspiegeling is van de carrière van een persoon tot op heden. Echter, lijsten schreeuwen er nu eenmaal om vergeleken te worden, zelfs indien dit strikt genomen niet mogelijk is. Laten we dus toch een poging wagen. De onderzoekscommissie heeft de kwaliteit van het onderzoek van een groep met name bepaald door het lezen van vijf opgegeven keypublicaties van de groep. De productiviteit van een groep is gerelateerd aan de aantallen gepubliceerde werken en de (theoretisch) te besteden onderzoeksuren (gemeten in fte). Tot slot geeft het cijfer voor relevantie aan hoe omgegaan wordt met de verworven kennis, bijvoorbeeld hoe deze wordt doorgegeven. De som van de deelcijfers die aan voornoemde drie categorieën zijn toegekend zou indicatief moeten zijn voor hoge aantallen citaties voor een groep. De groep, geleid door A. Smeulders, van de Universiteit van Amsterdam, blijkt volgens deze maatstaf de hoogste waardering te krijgen (de som levert 14+). Echter, haar medewerkers staan op de lijst van Citeseer (indien ze er al op voorkomen) voor het grootste deel op nauwelijks noemenswaardige posities. Twee groepen, namelijk de groep geleid door R. Plasmeijer van de Radboud Universiteit Nijmegen en de groep geleid door G. Renardel de Lavalette van de Rijks Universiteit Groningen, krijgen de laagste waardering (8-). Dit lijkt te contrasteren met de door Citeseer uitgedeelde plaats op de wereldranglijst: Plasmeijer zelf bevindt zich maar net buiten de top-25 meest geciteerde Nederlandse informatici. Twee hypotheses Uit bovenstaande observaties kunnen we een tweetal (polariserende) hypotheses formuleren. Ten eerste, citaties spelen geen rol van betekenis voor een (informatica)onderzoekscommissie. Hoewel de wetenschappelijke output is meegenomen in het deelcijfer voor productiviteit wordt nergens gerept over het systematisch toetsen van de kwaliteit en relevantie aan de hand van aantallen citaties. Dit terwijl deze categorieën zich hier toch met name voor lenen. Een tweede hypothese luidt als volgt: de gegevens die Citeseer gebruikt voor het herleiden van veel-geciteerden zijn niet representatief. Hiervoor bestaat meer evidentie. Ten eerste blijkt de onvolwassenheid van de techniek die gebruikt wordt om automatisch de Citeseer top-10.000 te genereren uit de prominente aanwezigheid van bijvoorbeeld leden uit ‘families’ met klinkende achternamen als ‘Thesis’, ‘Theory’, ‘Foundation’, ‘Checking’ en ieders favoriet ‘Collaboration’. Naast dit soort vermakelijke kwaaltjes zijn er echter ook serieuzere aandachtspunten. Vergelijken we bijvoorbeeld steekproefsgewijs de ranglijst van Citeseer met de gegevens van het Web of Science van het Institute of Scientific Information (ISI), dan zien we dat er van de door Citeseer gedicteerde volgorde niet veel overblijft. In tegenstelling tot ISI, dat zijn gegevens alleen haalt uit journalpublicaties, heeft de database van Citeseer veel weg van een allegaartje: zowel publicaties in wetenschappelijke tijdschriften en internationale conferenties, als publicaties in technische rapporten zijn terug te vinden. Vooral dit laatste punt kan een verkeerd beeld scheppen. Een laatste verdacht punt is het ontbreken van wetenschappers van bijvoorbeeld de Technische Universiteit van Delft en de Rijks Universiteit Groningen in onze top-25-lijst. Wat resteert zijn de overige twee deelcijfers die de onderzoekscommissie uitdeelde. Deze zijn moeilijker te relateren aan de gegevens uit de tabel. Beide deelcijfers (voor onderzoeksprogramma en vitaliteit & haalbaarheid) kunnen echter worden beschouwd als de wetenschappelijke tegenhangers van de kristallen bol en hebben in die hoedanigheid een voorspellende waarde. Dit levert de volgende hypothese op: des te hoger de som van beide cijfers des te groter is de kans een stijging te zien (op nationaal niveau) in de komende jaren van iemand van de desbetreffende groep in Citeseer. Dit effect lijkt nu reeds zichtbaar. Zo zien we dat bijvoorbeeld Bart Jacobs inmiddels in de top-25 is beland, terwijl hij in 2000 nog niet in de top-10.000 van Citeseer voorkwam. Dit correspondeert met de voorspellingen van de onderzoeksvisitatie. De komende jaren zullen moeten uitwijzen of het hierboven geschetste verband structureel is of niet. AUTEUR: Tim Willemse T.A.C. Willemse (timw@cs.ru.nl) is onderzoeker aan de Radboud Universiteit Nijmegen en het Embedded Systemen Instituut (ESI) in Eindhoven.Citeseer-lijst De onderzoekers in de lijst zijn ingedeeld bij de universiteit(en) waar ze op dit moment actief zijn in een informaticagroep. De weergegeven volgorde is de door Citeseer gedicteerde rangorde in citaties. De kolommen I en II bevatten cijfers die zijn toegekend door de onderzoeksvisitatie aan de groep waarin de desbetreffende onderzoeker in de periode 1996-2001 werkzaam was. Kolom I bevat de som van de deelcijfers voor kwaliteit, productiviteit en relevantie en kolom II bevat de som van de deelcijfers voor onderzoeksprogramma en vitaliteit & haalbaarheid. Met de + en de - heeft de onderzoekscommissie subtiliteiten weergegeven die niet binnen de algemene beschrijving van de toe te kennen cijfers te vangen zijn. Bij de optellingen in de kolommen I en II is de volgende conventie gehandhaafd: de + is geteld als 0.25 en de - als -0.25. De indicatie (*) geeft aan dat de betreffende onderzoeker in de periode 1996-2001 voor een andere groep werkzaam was dan momenteel, waardoor de cijfers van de onderzoekscommissie niet indicatief zijn voor de instelling of groep waar de onderzoeker momenteel actief is. Voor informatie over Citeseer zie http://citeseer.ist.psu.edu/, over de onderzoeksvisitatie zie http://www.qanu.nl/ en over het Web of Science van ISI zie http://www.isinet.com/. Onderzoeker Instituut I II 1 A. Tanenbaum VU, Amsterdam 12- 8+ 2 K. Apt UvA, Amsterdam 3 J. Klop VU, Amsterdam / 10 6+ RU, Nijmegen 11+ 7 4 J. Bergstra UvA, Amsterdam 9+ 6 5 M. Overmars UU, Utrecht 10+ 8+ 6 K. Larsen UT, Enschede 12,5 8 7 G. Rozenberg RUL, Leiden 8 H. Barendregt RU, Nijmegen 11+ 7 9 H. Bal VU, Amsterdam 12- 8+ 10 E. Aarts TU/e, Eindhoven 11 6 11 J. Baeten TU/e, Eindhoven 11- 8 12 F. Vaandrager RU, Nijmegen 12 9 13 T. Bäck RUL, Leiden 14 H. Bodlaender UU, Utrecht 11 7 15 J. van Benthem UvA, Amsterdam 10,5 7 16 P. Vitanyi UvA, Amsterdam 12+ 5 17 P. Klint UvA, Amsterdam 9+ 6 18 M. de Berg TU/e, Eindhoven 10+ 8+ (*) 19 E. Brinksma UT, Enschede 12,5 8 20 J. Groote TU/e, Eindhoven 10- 6,5 21 J. van Leeuwen UU, Utrecht 11 7 22 B. Jacobs RU, Nijmegen 12 9 (*) 23 F. van Harmelen VU, Amsterdam 3,5 8+ 24 S. Mullender UT, Enschede 12 8 25 J. Rutten VU, Amsterdam 10 6+