johan1234 |
2013-01-24 08:37 |
Onekligen inte en bra dag för oss på City. Lite möten här idag med de bolag som jobbar med hallen - dvs elektriker och bolaget som nya UPS-systemet kommer ifrån m. fl. - för att få mer klarhet i exakt vad som hände. Vi expanderar vår hall och förbereder även för en Zon B-hall för full separation lokalt. Dvs man skall kunna köra klustrad databas tex via två hallar med 10 Gbps utan latency. Vid något tillfälle skapas en strömspik som inte bara sänker en förfärlig massa maskiner - utan tar sönder i alla fall ett 20-tal större servrar - och även blad servrar. Detta sker förstås under en extremt kort period - men tillräckligt för att skapa omstarter samt helt ta ner maskiner. Vi driftar idag drygt 2000 fysiska servrar och ca 6000 virtuella servrar i den hallen. En stor del berördes sålunda. En del fick "bara" omstarter och påverkades minimalt medan vissa påverkades hela eftermiddagen och inpå kvällen. Innan kvällen slog in hade vi dock en klar majoritet fullt fungerande och de sista handlade mycket om att få klarhet i vilka servrar var trasiga och hur kunder då skulle flyttas - eller i värsta fall återställas från backup.
Förloppet beskrivs relativt detaljerat på vår status sida http://www.cnstatus.com (rekommenderar er som är kunder att regga er där så får ni all info mailad till er så fort vi kommer med uppdateringar). Som någon nämnde så när så många servrar dör samtidigt får det lite effekter. Tex fungerar City Cloud som så att en VM kan lätt flytta sig själv till andra hostar om en host dör. Men har du tex 100 hostar som du har som möjlighet att flytta till - och de alla också dör samtidigt - ja då blir det svårare... Förutom att vi bygger en ny Zon (som Amazons availability zoner kan man säga) kör vi igång vår tredje hall för att ha aktiva City Cloud servrar i - inom kort. Lär ge de som önskar möjlighet till väldigt bra arkitektur för att än bättre skydda sig.
Vi lär komma med en post mortem när vi har än bättre bild av just strömspiken och har fått sätta oss med de aktiva arbetarna där...
|