Microsoft geeft meer uitleg over oorzaak grote storing

De kern van het probleem lag in een update van Azure Active Directory (Azure AD), de centrale service op het Azure-platform die gebruikers identificeert en autoriseert op het moment dat zij proberen in te loggen. Daardoor hebben de gebruikers die al ingelogd waren tijdens de storingen daar veel minder last van gehad.
Eigenlijk gaat het om twee fouten die tegelijk naar voren kwamen. Microsoft legt uit dat een probleem in een update van een interne validatie-service in Azure AD aanleiding was voor een crash. Normaal zou deze in het Safe Deployment Process (SDP) zijn onderschept maar door een 'latent code defect' in het SPD werd de gemankeerde versie van de validatie-service direct op productie geïmplementeerd. Het Safe Deployment Process (SDP) bestaat uit vijf fasen waarbij in de eerste 'ring' tests worden uitgevoerd zonder klantdata en daarna stapsgewijs met data van Microsoft-klanten voordat de update op productie komt.
Frustratie bij inloggen
De implementatie van de foute code leidde tot frustratie bij gebruikers die wilden inloggen op bijvoorbeeld Outlook of andere Microsoft 365-diensten of diensten van derden die gebruik maken van het Azure cloudplatform. Het lijkt er op dat gebruikers in Noord- en Zuid-Amerika en Australië de meeste last hebben gehad gedurende de storing die duurde van 28 september half twaalf 's avonds Europese tijd tot half 5 's ochtends op 29 september. Zij hadden slechts 17 procent kans op een succesvolle inlog oplopend naar 37 procent. In Azië en Europa was de kans op een succesvolle inlog respectievelijk 72 tot 81 procent.
Microsoft gaf ook nog aan dat voorzorgsmaatregelen er voor gezorgd hebben dat Virtual Machines, Virtual Machine Scale Sets, en Azure Kubernetes Services nauwelijks last hebben gehad van de authenticatiestoring.
Code aangepast
Microsoft biedt excuses aan voor de gevolgen die klanten hebben ondervonden en heeft al stappen genomen om te voorkomen dat het probleem zich nog eens voordoet. Zo is de code in het SDP aangepast en zijn er aanpassingen gedaan aan het 'roll back'-systeem. Deze routine om terug te keren naar de voorgaande situatie als een update problemen geeft, gaat ook vaker geoefend worden. Ook gaat Microsoft een geautomatiseerde pijplijn inrichten die ervoor moet zorgen dat klanten bij problemen binnen 15 minuten worden voorzien van een 'initial communication'.
Microsoft heeft geen verder inzicht gegeven in de oorzaak van de tweede storing binnen een week tijd van Outlook die voornamelijk Europese klanten trof. Daarover is slechts gemeld dat het ging om een mislukte configuratie update.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee