Aan de slag om 0,09 procent winst aan uptime

Vier uur is de tijd die Alex nodig heeft om na een storing weer ‘up and running’ te zijn na een uitwijk. Dat toetst de IT-afdeling twee keer per jaar en die tijd van vier uur staat nog steeds. “Voor bankieren is dat acceptabel, maar Alex Beleggersbank wil het gewoon béter doen”, zegt Ed Lanen, manager ICT bij Alex. Daarbij wil hij wel duidelijk stellen dat hij het over de downtime heeft van de interne systemen. “Aan de uptime van bijvoorbeeld koersenleveranciers kan ik weinig doen.

Redactie AG ConnectMeer van deze auteur

Met de meeste hebben we daarvoor SLA’s afgesloten maar verder kunnen we niet gaan.”
Acht deelprojecten waarin de totale infrastructuur vervangen wordt en een zogeheten Twin-rekencentrum wordt opgezet, moeten het uptime-ideaal van Alex realiseren. Dat is een driejarenplan, waarvan niet zeker is of alle projecten ook werkelijk doorgang kunnen vinden. Er zijn technische hobbels én organisatorische, want Alex is per 1 januari overgenomen door Binckbank. Niettemin heeft Lanen met zijn IT-ploeg een ambitieus plan opgezet, waarbij nieuwe technologieën de boventoon voeren. Als alles volgens plan gaat, krijgen zij de downtime omlaag naar 24 minuten per jaar. En worden niet alle acht deelprojecten doorgevoerd, dan is er nog geen man overboord, want elk onderdeel zorgt op zichzelf al voor een behoorlijke innovatie.
Op dit moment is op de primaire locatie van Alex alles al dubbel uitgevoerd. In het uitwijkcentrum staat een deel hot stand-by maar niet alles. En dat kan er bij een calamiteit voor zorgen dat er een downtime van vier uur is.
Er is een netwerkverbinding met de KPN Cityring in Amsterdam en een met het landelijke KPN-net in Rotterdam. “Valt er een router uit, dan ben je binnen een seconde over. Daar merk je niets van, hoogstens een flikkering.”
Alle transactiedata van Alex zijn opgeslagen in een database. Deze is dubbel uitgevoerd door middel van een synchrone replicatie met EMC Symmetrix. Dat betreft alle data die hooggekwalificeerd zijn. Op serverniveau en op databaseniveau heeft Alex geen hot failover naar het uitwijkcentrum.
Alex heeft nu rond de 500 servers, waaronder een groot aantal webservers en applicatieservers, die volgens het n+1-concept zijn opgesteld: dat betekent dat er altijd voor elke toepassing één server extra beschikbaar is. Valt er een uit, dan is er voldoende capaciteit voor de desbetreffende applicatie. Dat is bovendien handig op heel drukke dagen als er extra capaciteit beschikbaar moet zijn.
Kern van de oplossing om de beschikbaarheid met 0,09 procent te verhogen, is een zogeheten Twin-rekencentrum. Daarbij draaien de systemen van Alex op de primaire én de secundaire uitwijklocatie. Lanen: “Met het Twin-rekencentrumconcept willen we op twee locaties productie draaien. Je draait dus ‘gewoon’ als er iets uitvalt. Strikt genomen is er geen uitval meer, want de systemen draaien gewoon door op een van de locaties.” En zo wint Lanen heel veel uptime. Maar dat klinkt eenvoudiger dan het is. “We stellen via een ‘proof of concept’ vast dat er dan inderdaad geen uitval meer is. Dat betekent dat we de applicaties, de servers en de netwerktopologie toetsen. Het is nu nog niet duidelijk of het wel in de volle breedte kan. Voor het databasemanagement weten we al dat het niet kan, want technisch is het nog niet mogelijk dat over de afstand te doen die wij voor ogen hebben. Er is daarvoor te veel latency en er zijn te veel kruisverbindingen.”
Alex heeft een volwaardige SOA gebouwd op basis van Tibco. De beleggersbank maakt gebruik van Oracle als DMS. De databases draaien op het SAN van EMC. Lanen: “Draai je op applicatieniveau op twee locaties, dan kun je tegen loadbalancing-problemen oplopen. Want je krijgt een enorm berichtenverkeer tussen applicaties via de Tibco-bus [de Enterprise Service Bus die het hart vormt van de Tibco-SOA] op serverniveau. We denken erover dat op het netwerk te segmenteren. Maar ook dat moeten we eerst toetsen.”
Lanen noemt de tegenwerpingen op technologisch gebied: “Een Twin-rekencentrum inrichten op OSI-laag 2 wordt door de specialisten afgeraden. Het netwerkverkeer kan dan onvoorspelbaar worden. Op laag 3 is dit wel mogelijk.
Voor het DBMS is een andere oplossing gevonden en daarmee komt Alex toch uit op de uptime van 99,99 procent. “Voor het DBMS wordt een Oracle Real Application Cluster (Rac) aangeschaft dat verbonden is met de disaster recoverysoftware Data Guard. [De Rac-technologie verdeelt de database in modules.] Dat komt op kleinere servers volgens het n+1-concept. Rac zorgt voor lokale high availability en Data Guard zorgt ervoor dat alles in vier à vijf minuten ‘up and running’ is aan de andere kant. Dan heb je een hot stand-by met een vertraging van vier tot vijf minuten. Dat komt goed uit voor onze uptime van 99,99 procent tijdens beurstijden. We rekenen op zes keer per jaar een ongeplande uitval en 6 x 4 minuten is 24 minuten is een uptime van 99,99 procent! Maar ook hier doen we een PoC. Als het niet lukt, doen we het niet. Dan gaan we voor high availability met uitwijk met een maximale uitwijktijd van vier uur.”
Het initiatief voor een betere uptime komt van de IT-afdeling zelf. “Vier uur vinden we gewoon teveel. Daarnaast moet toch veel vervangen worden in het rekencentrum en verwachten we een betere beheersbaarheid, onder meer door virtualisatie. De 500 web- en applicatieservers kunnen dan ingedikt worden tot hoogstens 50 servers. Dat is zeker kostenbesparend. We rekenen op een besparing van 25 procent ten opzichte van anderhalf jaar geleden. Wij gaan ervan uit dat als we zo zouden doorgaan, dat niet tot een grote mate van onbeheersbaarheid leidt, maar dat we dan wel meer beheerders nodig hebben om het park te beheren. We doen het nu met negen beheerders. In kosten is dat 30 procent onder de benchmark. Lukken deze projecten, dan hoeven er geen extra beheerders te worden aangenomen.”
Bull verzorgt het projectmanagement en als de PoC goed uitvalt, levert het bedrijf ook de servers voor de virtualisatie. Gekozen is voor Bull omdat het als beste uit de bus kwam bij een selectie uit zeven leveranciers. Lanen: “We hebben hen gevraagd om een globale businesscase van de door ons gewenste ICT-architectuur in te vullen en Bull deed dat het meest uitgebreid. Bull heeft een mening over welke technologie het meest geschikt is voor onze organisatie en dat maakt hen tot een partner. We willen niet het duurste en het mooiste. En Bull gedraagt zich ook niet als een dozenschuiver maar denkt echt mee.”
Het project is nog niet af en of het precies af komt zoals hij zich bij de aanvang had voorgesteld, is niet zeker. Maar elke verbetering is meegenomen. Lanen: “Prettige bijkomstigheid is dat we hiermee onze beheerders ook in huis houden, want die houden ervan om met nieuwe technologieën te werken. Hiermee is het ook een motivatieproject voor onze beheerders”, lacht hij. “We hebben een visie over een toekomstvaste ICT-infrastructuur neergelegd en de beheerders moeten de diverse projecten hiervoor nader invullen. Acht projecten in drie jaar. Ja, dat houdt ze wel bezig.”

/t.vrede@sdu.nl

In acht stappen naar 99,99%
Alex heeft de maatregelen die moeten resulteren in verhoging van de beschikbaarheid onderverdeeld in acht projecten:
1. Back-up en restore. De back-up wordt nu ’s nachts ‘disc to disc’ gemaakt. Voordelen genoeg: “Het kost geen 12 uur meer maar 3 uur. Ook hoeven we niet meer met tapes heen en weer te rijden, want alles wordt overdag gekopieerd naar het uitwijkcentrum.
2. Migratie van Oracle 9 naar versie 10.
3. De ‘proof of concept’ (PoC) voor de monitoring van hardware en software is gereed. Daar wordt nu een tweede PoC voor gedaan.
4. De PoC voor de virtualisatie is gereed.
5, 6, 7: Dit zijn drie projecten in één: De keuze voor de netwerktopologie en de leverancier daarvan is gedaan. Ook voor de beveiliging en monitoring zijn de technologieën en de leveranciers gekozen.
8. Het storage-project staat op de planning voor eind 2008, begin 2009.
Van de acht projecten zijn er nu twee helemaal afgerond, vijf deels en één nog totaal niet.

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

Toegang tot 3 PRO artikelen per maand
Inclusief CTO interviews, podcasts, digitale specials en whitepapers
Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Heb je al een account? Log in

Aan de slag om 0,09 procent winst aan uptime

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

Bevestig jouw e-mailadres

Er is iets mis gegaan

Maak een gratis account aan en geniet van alle voordelen:

Maak een gratis account aan en geniet van alle voordelen: