Derde weg in wetenschap: Computational Science
De verwachtingen rond computational science zijn hoog. De adviescommissie Pitac, die president Bush adviseert (President’s Information Technology Advisory Committee) beschreef dit gebied vorig jaar als ‘cruciaal voor wetenschappelijk leiderschap en economische ontwikkeling in de 21ste eeuw’. In de technische en ingenieurswetenschappen ligt het niveau van computational science al behoorlijk hoog. In de bio- en geowetenschappen, met de focus op bio-informatica en systeembiologie, is er nog een flinke slag te slaan. Fundamentele vragen zijn bijvoorbeeld: hoe functioneert de levende cel, hoe ontwikkelen tumoren zich, hoe kun je mensen of dieren automatisch herkennen? Vragen met een duidelijk belang voor de Nederlandse kennisintensieve maatschappij en industrie. Prof.dr. J.G. Verwer is hoofd van het onderzoekscluster Modelling, Analysis and Simulation van het Centrum voor Wiskunde en Informatica te Amsterdam. Daarnaast is hij hoogleraar numerieke wiskunde en informatica aan de Universiteit van Amsterdam.Silicon cell Computational science is van groot belang voor de systeembiologie. Een van de grote uitdagingen is het doorrekenen van een levende cel, of zelfs van een heel organisme, in één computersimulatie. Dit speelt onder meer in de farmaceutische- en voedselindustrie. Voorbeelden zijn ‘rational drug design’ - het vooraf voorspellen of nieuwe medicijnen wel of niet zullen werken - en de ‘cell factory’: het produceren van stoffen met behulp van levende cellen of organismen en betere methoden om voedsel te produceren en vers te houden. Hiervoor is onderzoek nodig in twee richtingen: het verzamelen van meer en gedetailleerdere experimentele gegevens en het ontwikkelen van modellen en technieken voor efficiënte simulatie. De laatste jaren maken de experimentele meetmethoden, mede door de ontrafeling van het genoom, een spectaculaire ontwikkeling door. Steeds meer aspecten van de levende cel worden voor metingen toegankelijk. De ‘computational science’-uitdaging is om de bijbehorende wiskundige modellen en algoritmen te ontwikkelen om de simulatie van een levende cel of een organisme praktisch mogelijk te maken. Informatie over het genoom leidt tot biochemische reactiemodellen over hoe de cel zijn functies verricht. Op basis daarvan stellen onderzoekers wiskundige modellen op in de vorm van differentiaalvergelijkingen. Specifieke vragen zijn dan, welke reacties met medicijnen kunnen worden beïnvloed en hoe bepaalde reacties kunnen worden gestimuleerd. Ook kennis van de regulering van het netwerk door de kern van de cel is nodig voor het begrip van het functioneren van de cel. Gezien de enorme complexiteit van deze netwerken, wordt een benadering gevolgd van kleine naar grote netwerken op basis van bekende algebraïsche decomposities. Hierbij wordt gebruik gemaakt van de systeem- en regeltheorie, een onderdeel van de wiskunde die voornamelijk is ontwikkeld voor de technische wetenschappen. Met gewone differentiaalvergelijkingen kun je echter niet de structuur van de cel en de ruimtelijke verdeling van de chemische stoffen in een cel beschrijven. Om deze aspecten ook mee te nemen, moeten modellen en methoden worden aangepast aan geschikte tijd- en ruimteschalen: gewone differentiaalvergelijkingen voor homogene gebieden, partiële differentiaalvergelijkingen indien ruimtelijke verschillen belangrijk zijn, en deeltjesmethoden daar waar een zeer sterke lokale activiteit zit. Hier komt de numerieke wiskunde en scientific computing in beeld. De wiskundige uitdaging is dan het koppelen van de modellen voor de verschillende schaalgroottes. Het onderzoek kan aldus worden opgebouwd rond twee concepten: vereenvoudiging en integratie. Vereenvoudiging is essentieel: een simpele simulatie van een model waarin alle biochemische kennis zit, vraagt al te veel van de huidige computers. Anderzijds, om variaties in complexiteit in ruimte en tijd en chemische samenstelling efficiënt aan te kunnen pakken, moeten de verschillende modelbeschrijvingen en benaderingen geïntegreerd kunnen worden in één computersimulatie. Pancake flipping problem Ook informatica en combinatorische optimalisering zijn van evident belang voor systeembiologie. In de (bio-)informatica probeert men de enorme hoeveelheid aan biologische gegevens toegankelijk en bruikbaar te maken. Een goed voorbeeld is het vinden van een evolutieboom voor vele soorten organismen die zo goed mogelijk aansluit bij verzamelde genetische gegevens. Het bepalen hiervan stuit op problemen op verschillende niveaus. Het vaststellen van de genetische afstand tussen twee soorten is vaak al moeilijk. Het is zelfs vaak niet duidelijk welke maat voor de afstand genomen moet worden. Het is bekend dat verreweg de meeste genen geconserveerd zijn in de meest uiteenlopende soorten organismen. De locaties van de genen op het genoom kunnen echter aanzienlijk uiteenlopen bij verschillende soorten. De biologische hypothese is dat stukken genoom omgedraaid of losgekoppeld en elders tussengevoegd kunnen worden. Dit leidt tot het combinatorisch interessante optimaliseringsprobleem: gegeven twee genomen, bepaal het minimum aantal operaties om van het ene genoom in het andere te komen. Dit aantal wordt gezien als een maat voor de evolutionaire afstand tussen twee genomen (soorten). Omdraaiingen van hele stukken genoom (reversals) als type operatie is wiskundig goed begrepen. Voor vele andere typen operaties tasten wiskundigen nog in het duister. Al in 1979 heeft Bill Gates van Microsoft, als student op Harvard, gewerkt aan een soortgelijk probleem waarbij het type operatie bestaat uit omdraaiingen van linker uiteinden van het genoom (prefix reversals). Naar analogie van het op orde brengen van een in foutieve volgorde gebakken stapel pannenkoeken, wordt dit probleem plastisch aangeduid als het ‘pancake flipping problem’. De theoretische complexiteit van dit probleem is tot op de dag van vandaag onbekend. De biologische betekenis is waarschijnlijk ver te zoeken. Universele analysemethoden Naarmate meer en meer data van verschillende aard beschikbaar komen en om analyse vragen, neemt het belang van ‘universele analysemethoden’ toe. Met name geldt dit voor toepassingen waar men de relevante parameters niet van kent en klassieke datamining- en analysemethoden niet werken. CWI-onderzoeker Paul Vitanyi heeft hiervoor een nieuwe theorie ontwikkeld met daarbij een zeer goed werkende klasse van analysemethoden. Deze zijn parametervrij en gebaseerd op off-the-shelf compressieprogramma’s zoals gzip, bzip2 en PPMZ. De methoden blijken uitstekend te werken in clustering en classificatie, in bekende, onbekende en heterogene databestanden. Hierbij kan men denken aan nieuwe genomen die gesequenced worden, aan onbekende organismen (een project om het water uit de oceanen te analyseren leverde honderdduizenden nieuwe microscopische soorten op), aan organismen waarvan de genen onbekend zijn (fungi en gisten), aan internetverkeerdata (interactive attacks), aan stambomen van soorten dan wel versies van middeleeuwse documenten, aan classificatie van verwantschappen van nieuwe virussen zoals het SARS-virus et cetera. Dezelfde onderliggende methodiek blijkt ook te werken voor het automatisch bepalen van de betekenis van zoektermen via Google van het web. De nieuwe universele analysemethodiek heeft geleid tot een nieuw toepassingsgebied, onder meer sterk bevorderd door op het CWI ontwikkelde software (publiek toegankelijk via www.complearn.org). Van tumoren tot olifantenoren Belangrijke onderzoeksvragen binnen de levenswetenschappen hebben te maken met visualiseren en met het automatisch terugvinden, herkennen en bewerken van beelden. Kwantiteit en complexiteit vormen de hoofdproblemen. Het is gewoon niet meer mogelijk enorme beeld- of videobestanden zomaar door te spitten. De oplossing wordt gezocht in snelle zelflerende zoeksystemen (content-based image retrieval systems) die grote beeldbestanden doorzoeken door alle niet-relevante plaatjes uit te sluiten. Wat relevant is, verschilt natuurlijk van geval tot geval en dergelijke zoeksystemen moeten dan ook al doende kunnen leren. Zo’n zoeksysteem kijkt als het ware toe als een gebruiker een klein aantal beelden classificeert en als relevant aanmerkt. Vervolgens stelt het vast welke visuele beeldkarakteristieken het beste correleren met de geobserveerde classificatie. Daarmee wordt een mathematisch model geconstrueerd dat voorspelt welke beelden in de database de meeste kans hebben relevant te zijn, en deze worden aan de gebruiker aangeboden voor een volgende feedbackcyclus. Deze mathematische modellen zijn gebaseerd op recentelijk ontwikkelde niet-lineaire technieken voor dimensiereductie en classificatiemodellen die gebruik maken van waarschijnlijkheidsrekening. Het voordeel is dat de gebruiker niets merkt van de gecompliceerde wiskunde. Toepassingen zijn onder meer te vinden in bijvoorbeeld: een foto-indicatie van bedreigde diersoorten en koralen. Zo kunnen walvissen herkend worden aan vlekken of inkepingen in hun rugvin of staart. Maar het maakt veel verschil of je zo’n dier van voren fotografeert of van opzij. De computer zal dan toch moeten bepalen of het om een en hetzelfde dier gaat of niet. Ook bij olifanten speelt iets dergelijks. Daar zijn het de oren die specifieke kenmerken vertonen, maar olifantenkenners kijken ook naar poten, slurven en slagtanden. Dat biedt ook houvast voor een zoeksysteem, evenals informatie over de lengte en breedteverhouding tussen de ogen. Uiteindelijk is het de bedoeling dat een computer aan één herkenningspunt genoeg heeft voor een match. Ook voor menselijke gezichtsherkenning is dringend behoefte aan goede analysetechnieken. Nu gaat er nog veel te veel fout. Goede 3D-visualisaties zijn voor de medische diagnostiek en voor moleculair biologisch onderzoek onmisbaar. Informatici zien zich daarom voor de vraag gesteld steeds betere algoritmen te maken, zodat visualisatie- en analysetechnieken geoptimaliseerd kunnen worden. Dat vereist nauwe samenwerking en een goede communicatie tussen informatici en wiskundigen aan de ene kant en biologen aan de andere kant. 4 onderzoeks-gebieden CWI Het Centrum voor Wiskunde en Informatica (CWI) te Amsterdam werd op 11 februari 1946 als Mathematisch Centrum opgericht. Onderzoek voor de Deltawerken en de ontwikkeling van de eerste Nederlandse computers behoorde tot de vroegste, soms baanbrekende resultaten van CWI-onderzoekers. Na een zeer goed uitgevallen wetenschappelijke evaluatie van het instituut in 2005 heeft het Managementteam van het centrum besloten het onderzoek de komende jaren te concentreren op vier gebieden, die zeer complex en van groot maatschappelijk belang zijn: service-oriented computing; data-explosie; maatschappelijke logistiek; aard- en levenswetenschappen. Deze globale thema’s worden vertaald naar concrete onderzoeksonderwerpen.