Overslaan en naar de inhoud gaan

Salesforce door het stof vanwege verlies data

Salesforce kampte vorige week woensdag met een uitval van systemen in een Noord-Amerikaans datacentrum die zeker 12 uur aanhield. De schade bleef beperkt, vooral doordat storing midden in de nacht plaatsvond en niet veel klanten actief waren, verklaarde CEO Marc Benioff.
Maatschappij
Shutterstock
Shutterstock

Salesforce geeft nu inzicht in de gebeurtenissen die leidden tot het verlies aan data. Daaruit blijkt hoe het falen van een enkele schakelaar tot problemen in verschillende datacentra kan leiden.

Schakelaar faalde

De start van het probleem lag op 9 mei in het datacentrum in Washington waar een schakelaar weigerde die de energievoorziening in het datacentrum regelt. De verschillende backupsystemen die het probleem moesten opvangen, kwamen niet goed in bedrijf waardoor er uitval van computersystemen optrad. Daarop kwam een veiligheidsroutine in actie waarbij de activiteiten van het datacentrum werden overgeheveld naar een datacentrum in Chicago. Dat werkte, maar helaas niet lang.

Bug in firmware

De prestaties van de database daar zakten in elkaar, omdat de extra werklast te veel druk op de lokale infrastructuur zette. Dat had tot gevolg dat zich een firmwarebug op de storage arrays openbaarde. Die had tot gevolg dat de tijd die nodig was om de database zijn data te laten wegschrijven naar de opslageenheden, sterk toenam.

De databasecluster kon daarop zijn acties niet voltooien en begon time-outs te vertonen bij het wegschrijven naar de opslag. Vanwege die timeout werd het onmogelijk voor een enkele database zijn schrijfactie volledig af te ronden. Daardoor ontstonden onregelmatigheden in de bestandsstructuur van de databases. Het hele databasecluster crashte daarop en het was onmogelijk een snelle herstart uit te voeren.

Synchronisatieroutine gebruikte onvolledige backup

Het daadwerkelijk dataverlies trad op doordat het backupsysteem zo is ingericht dat het vrijwel realtime kopieën maakt. Maar omdat de primaire opslag nog niet was voltooid, werden onvolledige kopieën gemaakt. Vervolgens werden deze onvolledige kopieën gebruikt door een automatisch proces dat de standby kopie van de database in het datacentrum in Washington overschreef die nog de intacte data bevatte van vlak voor de crash. Daardoor was het niet meer mogelijk naar de situatie van vlak van voor de crash terug te gaan.

Salesforce zegt dat de schakelaar die aan de basis van de uitval lag, nog in maart getest was en in orde bevonden. Toch was deze uit voorzorg vervangen. De firmware die het probleem liet escaleren, is vervangen en er is een nieuwe routine in de maak voor het up-to-date houden van de stand-by kopie van de database-instanties. Daarbij wordt de nu gebruikte 'blocks'gewijze replicatie vervangen door een replicatie op applicatieniveau.


Gerelateerde artikelen
Gerelateerde artikelen

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in