Falende koeling zorgde voor grote storing Azure-clouddiensten
Vanwege een storing in de automatische klimaatbeheersing in verschillende ruimten van een datacentrum in de EAST US region kwamen Storage, Compute en Networking in de problemen en alle diensten die daarvan afhankelijk waren. De problemen duurden van half 10 's ochtends tot 16:00 's middags lokale tijd (ET).
Microsoft geeft aan dat elke component van het koelingsysteem minstens een backup heeft (N+1 redundancy), maar dat kon niet verhinderen dat de koelende luchtstromen in het datacentrum significant verminderden. Daardoor ontstond een cascade aan gebeurtenissen die uiteindelijk resulteerden in het falen van netwerkcomonenten, vielen de virtual machines uit en gingen ook een aantal opslageenheden offline.
Problemen volgden elkaar op
Het probleem met de koeling kon worden opgelost met een reset van het systeem. Maar als gevolg van het type storing, moest elke koelingseenheid handmatig worden gereactiveerd. Dat was al na een half uur gefixed. Daarna moesten echter alle componenten weer opnieuw worden opgestart.. Met name de oplsag en compute VM's wilden aanvankelijk niet automatisch herstarten. Dat lukte uiteindelijk wel zodat om 22:00 vrijwel 100 procent van de dienstverlening weer beschikbaar was.
Microsoft gaat diep door het stof in het aanbieden van excuses. Volgens het bedrijf is ook van deze incidenten weer geleerd. Zo wordt het automatisch klimaatbeheersingssysteem aan een gedetailleerd vervolgonderzoek onderworpen en de noodzakelijke aanpassingen ook aangebracht in de overige datacentra in de wereld die met hetzelfde koelingssysteem werken.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee