Calamiteitenmanagement ver onder de maat
Als in een onderneming een server uitvalt door brand of een terroristische actie en daardoor een centrale website voor langere tijd niet meer bruikbaar is om te reageren op klantenverzoeken, dan zal deze onderneming imagoschade leiden. In veel gevallen zal ook een negatief effect op de omzet optreden. De geschetste ontwikkeling zou moeten leiden tot grotere zorg voor de IT-systemen zelf en voor calamiteitenmanagement om goed voorbereid te zijn op een situatie waarin langdurige uitval van IT-systemen de bedrijfscontinuïteit in gevaar brengt. Praktijkvoorbeelden en onderzoeksresultaten van diverse onderzoeksbureaus signaleren dat slordig met deze zorg wordt omgesprongen alleen al door het onzorgvuldig maken en testen van backups (Automatisering Gids, 21-02-2003). De verwachting is dan ook dat het aantal ‘alarmerende’ voorbeelden van bedrijven die na langdurige uitval van IT-systemen binnen enkele jaren de deuren moeten sluiten zal toenemen, tenzij calamiteitenmanagement (gericht op de continuïteit van de IT-voorzieningen) en crisismanagement (gericht op de continuïteit van de gehele organisatie) professioneel worden ingericht als opstap tot ‘Business Continuity Management’ (BCM). Valkuilen Een onderzoek onder tweehonderd grote Europese bedrijven uitgevoerd door het Britse onderzoeksbureau Taylor Nelson in opdracht van Unisys (Webwereldnieuws, 9 oktober 2003) laat zien dat 18 procent van de respondenten geen plan voor ‘disaster recovery’ heeft en 54 procent een niet formeel vastgesteld plan. Van hen die wel een formeel vastgesteld plan hebben zegt bijna 30 procent dat dit niet wordt getest. In een onderzoek uit 2002 van Omar Keith Helferich en Robert L. Cook (Central Michigan University) onder Amerikaanse bedrijven komt naar voren, dat slechts de helft van de onderzochte bedrijven een grote calamiteit zoals een omvangrijke brand overleeft. De Europese bedrijven doen het nog slechter. Het marktanalysebureau Datamonitor heeft in november 2002 in een whitepaper over bedrijfscontinuïteit (onderzoek in opdracht van Sybase) geconcludeerd dat de Europese bedrijven aanzienlijk minder geld spenderen aan continuïteitsmaatregelen en calamiteitenplannen dan bedrijven elders in de wereld. Aanbevolen wordt om de investeringen in ‘continuous availability’ in drie jaar tijd ruimschoots te verdubbelen: van 2,9 miljard naar 7,7 miljard euro. Ook al ontwikkelen steeds meer ondernemingen calamiteitenplannen, nog steeds vallen ze in dezelfde valkuilen. De belangrijkste passeren hier de revue. IT-afdeling gaat onzorgvuldig om met testen van backupprocedures In de Automatisering Gids van 21 februari 2003 wordt melding gemaakt van de resultaten van een onderzoek van de Werkgroep productonderzoek van de Netwerkgebruikersgroep Nederland (NGN) onder circa duizend leden. Daarbij is het volgende geconstateerd: • -Een derde van de middelgrote en kleine bedrijven heeft zijn zogeheten ‘full restore’ (compleet opnieuw geladen databestand) van de servers niet getest. • -Bij de bedrijven die dat wel deden mislukte deze restore in 15 procent van de gevallen. • -Een vijfde van de onderzochte bedrijven bewaart zijn backup tapes niet buiten het bedrijfsgebouw, een derde slechts gedeeltelijk. • -Veel bedrijven maken bijna alleen ‘incrementele backups’, die gegevens bevatten betreffende wijzigingen ten opzicht van de ‘full backups’. Bij een calamiteit kan het dan erg lastig zijn een volledige backup terug te zetten omdat de restore-activiteit te veel tijd vergt en omdat de kans op fouten toeneemt. Een alternatief zoals de aanschaf van snellere tape-streamers is voor veel, vooral kleinere, bedrijven te kostbaar. Tips om te zorgen voor betrouwbare backups en efficiënte restores zijn: • -Het is verstandig vast te stellen welke gegevens en applicaties van vitaal belang zijn voor de continuïteit van de organisatie. Stel deze veilig door periodiek backups te maken en bepaal de frequentie van het maken van backups op basis van uitspraken van de businessmanager hoe groot het maximale gegevensverlies mag zijn (één maand? één dag? één uur?). • -Een belangrijk uitgangspunt is de maximale toelaatbare restoretijd (de tijd die nodig is om alle gegevens weer bij de hand te hebben). Het ligt voor de hand om ook deze door de businessmanager te laten bepalen en niet door de IT-manager. Daarna kan de verhouding tussen het aantal full backups en incremental backups worden bepaald. • -Test regelmatig de full restores om verrassingen te voorkomen. Onderschatting van de impact van een calamiteit In de praktijk is gebleken dat een calamiteit niet alleen tot mogelijk gevolg heeft dat vitale (primaire) processen worden verstoord. Ook (lichamelijk en/of geestelijk) letsel voor personen, schade aan bedrijfsmiddelen, schade aan derden eventueel aan de gehele maatschappij, directe financiële schade, imagoschade en politieke schade kunnen optreden. Het leggen van de focus op het zo spoedig mogelijk herstellen van de benodigde IT-voorzieningen door calamiteitenmanagement is dan niet voldoende. Een calamiteit is een zaak voor de gehele organisatie en omgeving en vraagt daardoor om crisismanagement. Een sprekend voorbeeld is de brand bij het rekencentrum van de Universiteit van Twente in november 2002. Dat die werd veroorzaakt door één van de medewerkers heeft een behoorlijke impact gehad op de collega’s van het rekencentrum. In het algemeen wordt onderschat welk persoonlijk effect teweeg wordt gebracht als een collega een ernstig incident (laat staan een calamiteit) veroorzaakt. De aanbeveling is dan ook om een duidelijke scheiding aan te brengen in taken en verantwoordelijkheden van calamiteitenmanagement en crisismanagement. Crisismanagement staat bij een calamiteit boven calamiteitenmanagement en is als zodanig verantwoordelijk voor: • --Aansturing van calamiteitenmanagement vanuit de beslissingsbevoegdheid ten aanzien van bijvoorbeeld: Gaan we uitwijken of niet? Gaan we over tot degradatie van de dienstverlening? • -Aansturing van de BHV (BedrijfsHulpVerlening) voor het veilig stellen van personen en het inschakelen van de benodigde hulpverlenende instanties. • -De communicatie met het eigen personeel, de naaste familieleden, de klanten, de media en eventuele zusterorganisaties en partnerbedrijven. • --De nazorg voor het eigen personeel. Het is raadzaam om na te gaan in hoeverre de verzekering de schade dekt. Een belangrijk vraag daarbij is of klanten wel behouden kunnen worden, ook al worden alle systemen en apparatuur en zelfs een aantal maanden inkomstenderving door de verzekering vergoed. Incidenten en calamiteiten worden onzorgvuldig geëvalueerd Uit ervaring is gebleken dat het vooraf blootleggen van ontoereikende backupprocedures of onvoldoende communicatiemanagement en het meenemen van de analyseresultaten van reeds voorgekomen incidenten een belangrijke bijdrage kunnen leveren aan een goed calamiteitenplan. In de Automatisering Gids van 15 augustus 2003 wordt melding gemaakt van een succesvolle methodiek voor het analyseren (waaronder het stellen van de diagnose van de oorzaak) van ICT-incidenten onder de naam Tripod Beta. Deze methodiek is ruim 10 jaar geleden ontwikkeld door de universiteiten van Leiden en Manchester in opdracht van Shell. Sinds een kleine twee jaar gebruikt Shell de methode niet alleen voor incidenten in olie- en procesindustrie en de transportsector, maar ook voor ICT-incidenten. Het resultaat was een daling van het aantal incidenten met 30 procent. Bij een calamiteit is het van belang zowel de oorzaak van de calamiteit als de uitvoering van het calamiteitenmanagement te evalueren. Dit betekent overleg met andere Itil-geledingen (SLA-beheer, Capaciteitsbeheer, Beschikbaarheidsbeheer, Beveiligingsbeheer) om eventuele ‘after-disaster’-maatregelen vast te stellen ter reductie van de kans op en/of de impact van mogelijke toekomstige calamiteiten. Het management overschat kwaliteit calamiteitenplan In één van de brochures van het CUC (Computer Uitwijk Centrum) in Lelystad wordt weergegeven hoe de uitwijk van de stichting IVIO ter hand is genomen nadat een brand, die naar alle waarschijnlijkheid begon bij een koffieapparaat, de gegevensverwerking van IVIO volledig had verwoest. De titel van deze brochure is veelzeggend: ‘Uitwijk van mensen blijkt kwestie van mensen, niet van spullen.’ Hierin komt duidelijk naar voren, dat één van de gegarandeerde onderhoudscontracten niet was ingericht op de situatie van een calamiteit. Hoewel de centrale gegevensverwerking kon worden hervat en er geen tekort was aan apparatuur, bleek door het ontbreken van een LAN-uitwijkvoorziening dat pas na een week het aan de centrale computer gekoppelde LAN volledig in de lucht was. Een tweede voorbeeld betreft de eerdergenoemde brand in het rekencentrum van de Universiteit van Twente. Kenmerkend voor het herstel van de IT-voorzieningen was de welwillendheid van de leveranciers om zo snel mogelijk een noodrekencentrum in te richten. Het is een kwaliteitseis voor een calamiteitenplan dat vooraf de nodige afspraken met de leveranciers worden gemaakt ten aanzien van support bij een eventuele calamiteit en deze vast te leggen in de SLA’s die worden afgesloten voor de reguliere services, eventueel in een ‘112-SLA’. Bereikbaarheidsgegevens en IT-configuratiegegevens dienen vanzelfsprekend up-to-date te zijn. Uit ervaring is gebleken dat gedetailleerde processchema’s in een calamiteitenplan niet efficiënt genoeg zijn. Deze zijn goed bruikbaar voor de vastlegging van het calamiteitenmanagementproces en voor instructie- en opleidingsdoeleinden, maar niet voor een snel en efficiënt uitvoeren van de activiteiten tijdens een calamiteit. Het is verstandig om dan checklisten te gebruiken en deze bij calamiteitenoefeningen vooraf te testen. Onvoldoende faciliteitenmanagement Het met succes toepassen van calamiteitenmanagement/crisismanagement vereist een aantal basisfaciliteiten, die niet altijd in een calamiteitenplan worden opgenomen. De calamiteiten- en crisismanager missen daardoor de nodige hulpmiddelen voor het efficiënt uitvoeren van hun taken. Zonder uitputtend te zijn, worden de volgende aanbevelingen gedaan: • -In een overlegcentrum zullen de basisfaciliteiten aanwezig moet zijn, zoals een flip-over, white board en papiervernietiger, voldoende administratieve materialen, de benodigde catering en voldoende communicatiefaciliteiten. • -Ditzelfde geldt voor een uitwijklocatie waar het ook van belang is om te zorgen voor voldoende vervoersmogelijkheden, voldoende parkeerplaatsen en desnoods een kluisje met contant geld. • -Het werken vanuit een uitwijklocatie houdt vanzelfsprekend in dat men toegang heeft tot de werkinstructies, bijvoorbeeld via intranet. • -Zorg dat het calamiteitenplan met de benodigde checklists te allen tijde tijdens een calamiteit bereikbaar is, bijvoorbeeld door kopieën neer te leggen in het overlegcentrum en bij de receptie. Het ontbreken van duidelijke calamiteitenscenario’s Een manager die bij het nadenken over calamiteiten niet kan ophouden met het bedenken hoeveel dit er wel niet kunnen zijn, is geneigd om de gebruikelijke werkwijze aan te houden van managers die in oplossingen denken op het moment dat zich een probleem voordoet. Men is niet gewend om in scenario’s te denken, de juiste prioriteiten hierin te bepalen en van hieruit calamiteitenplannen te ontwikkelen. Dit is echter de juiste aanpak om zo goed mogelijk op het ergste voorbereid te zijn en de bij een calamiteit zo belangrijke maximale tijdwinst te behalen. Het management heeft tevens de belangrijke taak om criteria, zoals de maximale duur dat een bedrijfsproces mag uitvallen, vast te stellen om vervolgens te bepalen wanneer van een calamiteit sprake is. Een praktische aanpak start met het vaststellen van een aantal basisscenario’s door analyse van de bedrijfsspecifieke mogelijke situaties dat het gebouw, de omgeving en/of de IT-systemen al of niet langdurig niet beschikbaar zijn. Calamiteitenmanagement leidt niet tot Business Continuity Management (BCM) De Yankee Group heeft naar aanleiding van de 11/9-ramp in de VS een rapport opgesteld met daarin een overzicht van de directe gevolgen van de ramp voor de IT-voorzieningen en de impact daarvan op organisaties. Drie leerpunten hieruit zijn: • -vermijd afhankelijkheid van één centrale voorziening en overweeg om die reden outsourcing; • -overweeg het parallel gebruik van verschillende communicatiemedia om afhankelijkheden te verminderen; • -leg de prioriteit op BCM in plaats van op calamiteitenmanagement. In het kort houdt BCM in: het nemen van maatregelen (als samenhangend geheel opgenomen in een beveiligingsplan) ter voorkoming van ernstige onderbrekingen in de bedrijfsvoering en het nemen van maatregelen (als samenhangend geheel opgenomen in een calamiteitenplan) ter bescherming van vitale (primaire) bedrijfsprocessen tegen gevolgen van omvangrijke (ver)storingen of calamiteiten. Het ontwikkelen van BCM blijkt in de praktijk complex en tijdrovend. Indien een organisatie nog geen BCM heeft ingericht en ook geen calamiteitenplan tot haar beschikking heeft, kan het ontwikkelen van zo’n plan als een eerste stap worden gezien. Het is wel verstandig dan alvast rekening te houden met aspecten van BCM. De bij de vorige valkuil besproken resultaten van incidentenanalyses en ‘after-disaster’-evaluaties kunnen hieraan de nodige bijdrage leveren.