Hoe het zó fout kon gaan bij Atlassians Jira- en Confluence-diensten
De handmatige stappen maakt dat het herstel zo onwerkelijk lang duurt. Atlassian verwacht dat het nog wel anderhalve week duurt voor alle accounts zijn hersteld. Inmiddels is wel de functionaliteit hersteld voor zo'n 55% van de klanten die werden getroffen door de mislukte beheeractie, zo blijkt vandaag uit de statuspagina. Maar het herstel gaat nu met zo'n vier klanten per dag, terwijl de accounts van ongeveer 400 klanten werden getroffen voordat de fout werd ontdekt. Op het totaal aantal van 226.000 Atlassian-klanten is dat niet veel, maar je zal maar voor je bedrijfsproces afhankelijk zijn van de clouddiensten.
Ongeluk in drieën
Wat ging er dan precies fout vorige week? Atlassian CTO Sri Viswanath legt het uit in een blog. Het doel van de beheeractie was het verwijderen van een verouderde app, genaamd Insight - Asset Management, uit accounts van klanten. De functionaliteit daarvan was inmiddels overgenomen door native functionaliteit in Jira Service Management and Jira Software.
Wat begon als een routineklusje ging afgrijselijk mis als gevolg van twee fouten die los van elkaar werden gemaakt. Ten eerste werd het script dat de betreffende software moest verwijderen niet gevoed met de ID's van de app, maar met de ID's van de cloud-site van klanten waar de app uit moest worden verwijderd.
Daarnaast had het script twee mogelijke instellingen. Een daarvan was het volledig wissen van data, bedoeld om aan wettelijke regels te kunnen voldoen. Het script ging dus met de verkeerde instelling en met veel te ruime bevoegdheden van start, en wiste de complete accounts van klanten zonder dat een snelle roll-back mogelijk was na ontdekking van de fouten.
Backup terugplaatsen kost tijd
Snel teruggrijpen naar back-ups is dan het devies. Voor klein herstel heeft Atlassian routines die data snel terug kunnen plaatsen. Maar de accounts van Atlassian-klanten bestaan uit een complex samenspel van verschillende diensten die niet als een geheel in een back-up worden weggeschreven. Daardoor moeten de accounts stuk voor stuk opnieuw in elkaar worden gezet. Gelukkig konden wel enkele onderdelen daarvan worden geautomatiseerd waardoor aan batches van maximaal 60 klanten tegelijk kan worden gewerkt. Per account zijn desondanks vier tot vijf dagen nodig voordat de klant weer toegang kan krijgen tot de dienstverlening.
Het is onduidelijk of en hoe Atlassian gedupeerde klanten gaat compenseren voor geleden schade. Viswanath geeft wel droogjes toe dat "incidenten zoals deze vertrouwen kunnen doen afkalven."
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee