Overslaan en naar de inhoud gaan

Hoe het zó fout kon gaan bij Atlassians Jira- en Confluence-diensten

Twee zaken liepen onafhankelijk van elkaar fout en veroorzaakten samen ernstige chaos. Automatisch herstel vanuit back-up is mogelijk, maar niet voor zulke grote hoeveelheden klanten. Gevolg: langdurige storingen, waarbij Atlassian-medewerkers moeten handmatig de accounts stukje bij beetje weer in elkaar zetten.
wanhoop
© CC BY 2.0 - Flickr
CC BY 2.0 - Flickr

De handmatige stappen maakt dat het herstel zo onwerkelijk lang duurt. Atlassian verwacht dat het nog wel anderhalve week duurt voor alle accounts zijn hersteld. Inmiddels is wel de functionaliteit hersteld voor zo'n 55% van de klanten die werden getroffen door de mislukte beheeractie, zo blijkt vandaag uit de statuspagina. Maar het herstel gaat nu met zo'n vier klanten per dag, terwijl de accounts van ongeveer 400 klanten werden getroffen voordat de fout werd ontdekt. Op het totaal aantal van 226.000 Atlassian-klanten is dat niet veel, maar je zal maar voor je bedrijfsproces afhankelijk zijn van de clouddiensten.

Ongeluk in drieën

Wat ging er dan precies fout vorige week? Atlassian CTO Sri Viswanath legt het uit in een blog. Het doel van de beheeractie was het verwijderen van een verouderde app, genaamd Insight - Asset Management, uit accounts van klanten. De functionaliteit daarvan was inmiddels overgenomen door native functionaliteit in Jira Service Management and Jira Software.

Wat begon als een routineklusje ging afgrijselijk mis als gevolg van twee fouten die los van elkaar werden gemaakt. Ten eerste werd het script dat de betreffende software moest verwijderen niet gevoed met de ID's van de app, maar met de ID's van de cloud-site van klanten waar de app uit moest worden verwijderd.

Daarnaast had het script twee mogelijke instellingen. Een daarvan was het volledig wissen van data, bedoeld om aan wettelijke regels te kunnen voldoen. Het script ging dus met de verkeerde instelling en met veel te ruime bevoegdheden van start, en wiste de complete accounts van klanten zonder dat een snelle roll-back mogelijk was na ontdekking van de fouten.

Backup terugplaatsen kost tijd

Snel teruggrijpen naar back-ups is dan het devies. Voor klein herstel heeft Atlassian routines die data snel terug kunnen plaatsen. Maar de accounts van Atlassian-klanten bestaan uit een complex samenspel van verschillende diensten die niet als een geheel in een back-up worden weggeschreven. Daardoor moeten de accounts stuk voor stuk opnieuw in elkaar worden gezet. Gelukkig konden wel enkele onderdelen daarvan worden geautomatiseerd waardoor aan batches van maximaal 60 klanten tegelijk kan worden gewerkt. Per account zijn desondanks vier tot vijf dagen nodig voordat de klant weer toegang kan krijgen tot de dienstverlening.

Het is onduidelijk of en hoe Atlassian gedupeerde klanten gaat compenseren voor geleden schade. Viswanath geeft wel droogjes toe dat "incidenten zoals deze vertrouwen kunnen doen afkalven."

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in