![]() |
Klockan är 01.32 natten mot lördagen när ett SMS varnar för att vår serverfarm har tappat kontakten med internet. Någon minut senare försöker jag logga in på servrar, testar olika IP-nummer och försöker nå vårt säkerhetsystem. Alla försök misslyckas - en svag länk i kedjan har brutits och våra internettjänster är otillgängliga.
Vad som saknades var Redundans - vi har skrivit en kort guide till vad man skall tänka på och våra egna erfarenheter. För den som planerar driftskritiska system - exempelvis hemsidor, mailservrar eller andra internettjänster med många besökare som är beroende av att tjänsterna är tillgängliga är det viktigt att redan i planeringsstadiet fundera över redundans. Jag har personligen haft egna webbservrar i drift sedan sommaren 2000 och har lärt mig en hel del sedan dess. Målet har alltid varit 100% tillgänglighet men det har visat sig vara knepigt att genomföra i praktiken. Praktiska problem med serverdrift: - Är det någon som minns dom enorma strömavbrott som Kista och andra delar av västra Stockholm råkade ut för? Minst två av dessa avbrott varade i mer än två dagar utan några möjligheter att själv påverka situationen - vi hade våra servrar hos en internetleverantör med webhall i Akalla och fick glatt vänta på att strömmen skulle komma tillbaka. - Efter att ha bytt internetoperatör råkade vi ut för minst tre kabelbrott i samband med att bygget av södra länken fortskred strax utanför Stockholm. Oftast fick man kontakt med internet efter 2-12 timmar men det skapade stor irritation. - Vi har också råkat ut för att vi utnyttjar för mycket bandbredd. Under en period hade vi 2Mbit tillgängligt vilket oftast räcker långt men periodvis har vi behövt betydligt mer och då har exempelvis varit väldigt långsamt eller helt enkelt otillgängligt. - Intresset för Mac är väldigt cykliskt. När Steve Jobs går upp på scenen och presenterar nya produkter är intresset större än någonsin och Macsajterna översvämmas av besökare. Ibland kan det också vara så att nyheter sprids internationellt - begreppet "Slashdottad" uppkom när webbservrar kraschar pga för många besökare. - Under utvecklingsarbetet med mac.se tjänsterna fick vi känna på ett annat problem: diskkrasch. En riktig mardröm som tar tid att reda ut - särskilt om ordentliga backuprutiner saknas. För oss var det en riktig tankeställare som gjorde att vi tog några fasta beslut som vi inte viker ifrån: alltid, alltid RAID-5 och helst SCSI-diskar sitter i "ryggraden" nuförtiden. Vi har hot-spare disk i två maskiner: en disk står stilla och väntar på att ersätta en systerdisk som går sönder. Bytet sker automatiskt. - Riktiga servrar har god redundans inbyggd. Nätaggregat och fläktar som går att byta under drift, god kylning, RAID och övervakning av beståndsdelarna är väldigt trevligt. Läs gärna vår granskning av Xserve G5 som vi skrev nyligen. - Driftstopp pga kraschade operativsystem har jag faktiskt aldrig råkat ut för (peppar, peppar) trots att vi kört Windows 2000 Server under lång tid. - Felkonfigurering av tjänster kan leda till kortvariga driftstopp. Att leka med inställningar eller uppgraderingar under pågående drift kan alltid göra att någonting stannar tillfälligt och skapar problem. Vi har varit ganska förskonade ifrån dessa problem som tur är. Använd helst inte produktionsmiljö för testning - det kan skapa rejält med extrajobb. - Intrång och attacker är också något som man måste vara beredd på. Det finns fler ondskefulla internetanvändare än jag trodde - vi råkade ju ut för att en 99mac-användare hittade på sätt att ladda ner medlemsregistret vilket senare användes för spamutskick och troligen såldes vidare. Även hackerattacker och arga människor som vill förstöra för oss kräver goda rutiner och loggning av trafik. - Problem med DNS:er eller felkonfigurering skapar mycket oreda. Vi har valt att använda webhotellets dubblerade DNS:er för att minska den typen av problem. - Ren klumpighet, otur och dålig planering kan också leda till driftstopp. Att installera servrar utan att skruva fast alla rackfästen, lösa strömkablar, dåliga ethernetsladdar, dåligt placerade switchar och backupenheter kan skapa problem. Jag har sett riktiga mardrömsexempel där en kund placerat en tornserver på en hylla där en liten, liten putt skulle göra att den faller 1.5 meter ner i ett betonggolv. Server var fylld av kritiska data som skulle orsaka driftstopp med kostnader i miljonklassen. Självklart saknade dom backup. - Rätt kvalitet på utrustningen är naturligtvis jätteviktigt. En billig switch som hänger sig varannan vecka, billiga ethernetkablar som tidvis ger konstiga nätverksfel, dåliga diskar, dåliga nätverkskort eller allmänt instabila datorer som inte är byggda för serverdrift kan orsaka mycket huvudvärk. - Vad händer den dag då grejerna stannar eller helt enkelt går sönder? Att skicka servern på service i fyra veckor är inte ett alternativ, därför måste man teckna serviceavtal för varje del i kedjan. Alla stora serverleverantörer erbjuder 24/7/365/4h support - 4 timmars inställelsetid dygnet runt, året runt. Kom ihåg att alla vitala delar måste omfattas - även routers, switchar och brandvägg måste kunna fixas omedelbart eller ersättas. Jag har säkert missat flera punkter i ovanstående, kom gärna med kommentarer och egna erfarenheter. Att planera ett helt redundant system är knepigt och det kan vara väldigt dyrt att dubblera alla system. Planeringen av mac.se Under planeringsarbetet för mac.se - ett typiskt kritiskt system med betalande användare som alltid måste vara tillgängligt - har vi använt vår erfarenhet för att bygga upp en god driftsmiljö. Vi har placerat våra servrar hos Internet5/Telenor i centrala Stockholm som har en väldigt avancerad serverhall. Förutom att lokalen är ytterst stöldskyddad och allmänt svårtillgänglig finns brandskydd, rejäla 42U rack i mängder och god kylning. Dubbla redundanta 100Mbit internetförbindelser gör att man nått minst 99.99% tillgänglighet mot internet. Strömförsörjningen är skyddad genom UPS:er (batteribackup) i 2 minuter innan stora dieselaggregat tar över. Strömmen i rackskåpen är dubblerat i separata A och B kanaler - man ansluter serverns dubbla nätaggregat till varsin strömkälla. Plötsligt stannar allt Det är dyrt att bygga välplanerat och våra svaga punkter är brandväggen och switchen som utgör våra SPOF - Single Point Of Failure. Om brandväggen eller switchen dör stannar allt. Och det var precis vad som hände inatt. Klockan 01.32 tappar vi kontakten med serverfarmen och några minuter senare meddelar jag jourhavande tekniker på webhotellet vad som hänt. Tyvärr är det fredag natt och vi tvingas vänta till 08.00 innan vårt serviceavtal gäller. Vid 09-tiden får vi rapporten: brandväggen startar inte om trots omstart. Vi är hyggligt förberedda nuförtiden men det här hade vi hoppats slippa vara med om. En halvtimme senare väljer vi att använda serviceavtalet på brandväggen och kallar in jourhavande tekniker (á 9000kr!) som kommer med ersättningsmaskin vid 13.30. Vår system tar ögonblicksbackup av brandväggsinställningar varje dag som mailas och sparas i min Powerbook. När nya brandväggen är uppe klickar vi i några rutor och laddar upp inställningarna - en minut senare är vi online igen. Jakten på 100% För att öka redundansen i vårt system tvingas vi omkonfigurera vårt brandväggssystem till "high availability" vilket innebär att man har dubbla brandväggar mot internet, dubbla switchar och alla servrar är kopplade till båda switcharna. Då är vi online även om en brandvägg eller en switch stannar. Beräknad merkostnad: ca 22.000kr plus 600kr/mån för rackytan. För att öka redundansen för mac.se (som är prioriterat) till nästa nivå måste vi använda en klusterlösning där två eller flera servrar delar på trafiken och gör tjänsten maskinoberoende. Stannar en server påverkas ingenting. Tyvärr är kostnaderna enormt höga - cirka $40.000 eller 300.000kr utan att vi ens räknat med hårdvara/servrar. Det får vänta ett tag till med andra ord. Meningen med denna artikel är att belysa några av dom problem som förknippas med 100% tillgänglighet och vilka svårigheter och kostnader man får räkna med. Troligen finns det gott om kompetens hos 99mac:s medlemmar - skriv gärna en kommentar och berätta om era egna problem och lösningar! Läs om Redundans på susning.nu |
Tycker du hittat dom flesta aspekterna man skall tänka på, jag ser allt för ofta personer som anser att redundans är endast 2st internetlinor, sen har dom inte någon lastbalansering eller någon teknik för att kunna skilja linorna åt så är man tillbaka på noll igen (det förstår dom inte förrän dom upplever ett sött driftstopp).
Har också servrar på Internet5 , kan bara hålla med om att deras hall verkligen håller måtten och ger vad dom lovar, sedan jag flyttade in där 2002 har jag inte upplevt några störningar att tala om. Personligen har jag börjat labba med hall-spegling. D.v.s. två servrar i olika hallar som hela tiden håller varandra up-to-date, materialet är max 15 minuter gammalt om en server brakar, med DNS i 5 olika hallar och 5 olika ISP;s (port80, internet5, gblx.net, savvis.net och gyron.net) så tror jag just denna lösning kommer bli riktigt stabil, TTL på 60 sek gör att om en maskin dör så landar man på den andra inom en minut. Hårdvaran i servrarna missar många, spegling av hårddiskar och allrahelst hotswap, om en spegel går sönder så klarar den sig till man kommer dit och sätter i en ny, med servern igång. (försök göra detta på en webcows-server, som exempel :) ) Det med brandvägg som hänger sig inträffar tyvärr för ofta, jag löste det med två oberoende servrar, när båda är aktiva agerar den ena IDS (loggar lite bara) och den andra filtrerar, dom är inte beroende av varandra och kan överta varandras tjänster om den andre inte svarar. Det med switch tror jag inte man kan komma ifrån på ett billigt sätt, har försökt och labba här hemma utan några större framgångar, mest nätverkskrockar och annat frustrerande :) |
Vi kommer troligen uppgradera till redundanta brandväggar där den ena sitter som "Hot Standby" hela tiden.
Jag siktar på 2st HP Proliant DL140 med dual 2.4GHz Xeon och 1GB RAM som brandväggar, extrautrustar dom med 2x10/100 kort bara. |
Underbar läsning!
Tack för att du delar med dej! WN |
Utomordentlig krönika!
Tummen upp! |
Jag har själv gått och funderat på att låta servrar på två skilda platser dela på trafiken och undrar därför lite nyfiket, vad är det du har räknat in i de 300.000kr det skulle kosta?
Måste även instämma med Cellsynt och WN, tack för ett mycket bra inlägg! //Peter |
Citat:
|
Citat:
e väl skönt att inte behöva klicka massa också =) |
Är det planerat avbrott eller fick ni problem i natt/morse med? Sidan fungera ju inte nu heller...
|
Just det där med switchar är ju lite intressant. Jag praktiserade på ett företag. Där var nätet väldigt viktigt eftersom att PLCerna altså maskinernas styrenhetr var beroende utav servrarna hela tiden. Och om det hela dör så förloras det 135tusen på 10minuter. Så att det dog var inget alternativ. Så jag var med och byggde ut en del av deras nät och fick reda på hur allt vart uppyggt. Ett exempel på deras lösning var. 4 switchar och det går 2 kablar mellan varje switch. så 3 switchar kan dö och allt funkar. och 5 kablar. kunde gå sönder.
Dock måste det ju vara rätt dyra switchar så dom kan klara av detta. Men cisco klarar ju det men även 3Com´s switchar fixar det. Men där hyrde dom en kille som konfade dessa switchar och det är ju inte billigt. Själv förstår jag inte varför inte folk använder Magnetbad till backup. |
Citat:
Trådar med endast ett kortfattat Topic och sen endast en länk tycker jag är helt meningslösa och borde förbjudas. |
Citat:
http://www.stalker.com/CommuniGatePro/Licensing.html |
Citat:
Resultat: - Vi har under 1% CPU load med 1000 inloggade. - Vi fick hem den gamla brandväggen (noname 1.7GHz P4) och skruvade isär den för att hitta felet. Processorfläkten var död. :( Läs mer: http://www.99mac.se/vbindex.php?id=336 |
Just det där med en raid utav diskarna. En stor svag länk i servrarna tycker jag borde vara scsi korten. Om det pajar så kvittar det hur många diskar det ligger i raiden.
Men men. Ingen som vet hur en vanlig lösning är på switchar i serverhallar och vad brukas det användas för märken på dom? vad kostar en server hall för säg 4U ? |
Citat:
Normalt sett använder serverhallarna switchar ifrån Cisco eller exempelvis HP (dom där modulbaserade rackswitcharna). Jag har aldrig sett konsumentmodeller i rackskåpen som saknar management etc. Vi har egen switch bakom vår brandvägg - en 3Com Gigabit switch som är monterad på rackets baksida (tar inte upp extra U). Levonline tar 900kr för första U och sedan 600kr/U påföljande. Det finns billigare webhotell lite här och där. |
Citat:
|
Citat:
|
Citat:
Tex Ingate Firewall 1880 eller liknande? ( http://www.ingate.se/firewallrange.php ) Vad har ni andra för erfarenheter av brandväggar? Vilken mjukvara kör ni ? |
Citat:
Ingate:s brandväggar är ju Linux och "Intel inside" precis dom flesta andra fast dom verkar ha skruvat ihop det hela själva. Då kör åtminstonde jag hellre HP eller IBM med serviceavtal och möjlighet att ha sådana här grejer: Remote Insight Lights-Out Edition II http://h18013.www1.hp.com/products/s...es/product.gif Det verkar ju hur najs som helst att kunna administrera ALLT inkl starta om datorn (även om den är avstängd eller totalt 100% fryst), starta ifrån en virtuell diskett eller CD (!) och sköta all management som fläktar, diskar , RAID osv. Fungerar lika bra oavsett vilket OS man kör på servern. Mums för serveradministratörer! http://h18013.www1.hp.com/products/servers...loe2/index.html http://h18013.www1.hp.com/products/servers...onsanswers.html |
Japp, Remote Insight fungerar finfint.
|
Jag kan skriva under på Remote Insight. Du kan göra precis allt med servern som om du satt framför den. Enda nackdelen är Terminal Servern (Remote Desktop) som är en irriterande slö och smått buggig Java-klient. Här använder jag numera Microsofts Remote Desktop, tidigare använde jag VNC.
|
Citat:
|
Tankeställare angående brandvägg:
Vi körde från början med helt vanliga 9gb diskar, 4st i raid10 (spegling) om nu nåt skulle hända. Har testat väldigt mycket nu, och vi kom fram till att inte ha några hårddiskar (rörliga delar) i en brandvägg som är så pass viktig, vi använder numera 512mb minneskort som "hårddisk", en sak mindre som kan braka. Ett strippat och patchat os med lite fw-regler och en fristående IDS tar inte mer än 250-300MB utrymme. Bara ett tips för er pryltokar som älskar att exprimentera ;) |
Använd då inte någon standard OS installation som inte är anpassat för flash-disk. Eller bygg något själv fast med ett flash-disk filsystem. Eller se till att firewallen inte skriver ner data till disk (eller inte så ofta iaf). Man kan ju logga till en port med och spara loggen på någon dator bakom firewallen.
Flash-diskar är inte gjorda för att skriva om filer/block hur många gånger som helst utan de börjar tappa minne efter mellan 1000 och 1.000.000 skrivningar (beroende på minneschip). De flesta moderna flashdiskar klarar upp mot 1.000.000 skrivningar, men är inte filsystemet anpassat efter detta så kan den råka skriva en tmp-fil på samma block hela tiden och vips har man en krashad firewalll efter några månader eller så. Det finns linux-distributioner som klarar sig på flashdiskar på ner till 4mb utan problem. CF->IDE adapters går att köpa på välsorterade datorbutiker. |
Citat:
Jag har ett par saker till för att öka uptimen Köp internet ifrån flera operatörer. Alla operatörer kan få driftfel och då är det bra om det finns en helt annan operatör tillgänglig. För att det ska fungera i praktiken så behöver du antingen vara LIR eller ha PI space på Ipnätet så att det kan routas till en annan operatör utan problem. Ha även fjärromstartningsutrustning på elen. Samt elutag i rackarna som slår på i sekvens. Om du fuller ett skåp med 48 st 1 U lådor som drar 200W så blir det 9,6 amp i drift. Detta klarar inte någon normal UPS att generera under en uppstart då strömen kommer att stiga kanske till det dubbla vilket gör att säkringen kommer att gå så fort strömen kommer tillbaka. Ha kontroll på värme / fuktighet och även att det rapporterar till Personsökare/sms. Ha modempool till datahallen så att du kan komma åt nätet om inte Intenetledningen fungerar. |
Sjysst läsning.
Som du själv skrev bjornstrom så tar du upp sådant som man inte tänker på. Och hur sårbar man är emot avbrott. |
http://media.99mac.com/bildreportage/99mac-rack/005.jpg
Vi valde till sist att investera i ett eget serverrack hos Internet5/Telenor med rejäl kapacitet och plats för totalt 42U. Serverhallen har som sagt "allt" dubblerat inkl gigabit fiber, dieselaggregat med separat A/B ström etc. Vi flyttade in dom första servrarna igår inkl 99mac, iPod.se etc. Om några dagar flyttar vi dom sista burkarna och då flyttar 99musik hem ifrån USA där tjänsterna finns idag (servermatrix). Som ni ser har vi gott om plats - när vi är klara kommer vi utnyttja cirka 18U: 24U är alltså ledigt fortfarande. PS. Vi valde att byta ut HP-servern vi köpte nyligen mot en ny HP Proliant DL380G3 med inbyggd ILO, dubbla nätagg, 8 fläktar (stora fläktpaketet) och konfigurerade diskarna dom RAID-1 med hotspare. Nu ska jag bara försöka lära mig hur jag sätter upp 802.3ad med redundanta switchar, någon som vet? |
Citat:
Har kört Windows på ett 64Mb Smart Media kort. Det enda som gjordes var följande: Se till att ordna upp 1st RAM disk på 64MB. Sedan ser man till att kopiera över allting som behövs skrivas till disk till ramdiskarna. (Swapfil, etc). Datormagazin hade en artikel om hur man kunde boota Windows 98 från CD-ROM för några månader sedan (kommer inte ihåg exakt). Lite modifiering utav det dom skrev där i och lite kodande så fungerade allt detta. Och självklart ett tack till pclite.com för Windows 98 Lite :P Numera har den datorn varit igång i snart 270dagar :) Och precis som Decibel säger så vore den datorn utmärkt till att ha som FW (men vem vill ha Windows som brandvägg?). |
Jag funderar på att hyra ut dom resterande rackplatserna till den som redan har en rackserver eller vill hyra även en Proliant eller Xserve.
Vad tror ni om detta? http://www.mantaray.se/hosting/ Bra/dåligt? Tror ni någon är intresserad? |
Jag tycker det ser bra ut. Jämför man med vad Levonline tar för sina dedikerade servrar så ser priset "konkurrenskraftigt" ut. Det som gör att jag inte skulle välja er är:
1) Avtalstiden på 3 år är för lång för mig. Vad som händer med mina webbsidor om två år är redan det lite osäkert. Jag hade idag inte bundit mig för mer än ett år. (Jag inser dock att det är enklare att ge ett lågt startpris om avtalet löper över tre år, och att det eventuellt beror på leasing-företaget). 2) Jag har svårt att se vilken support jag får. Jämför jag med Levonline så vet jag att jag får tag i någon hos dem på vardagar/dagtid. Hur det ser ut hos er vet jag inte. Har ni "kontor" nära där servrarna står? Hur snabbt kan jag få "min" server omstartad om det skulle behövas? Kostar det extra att få servern omstartad? Jag tror att en "rapid-reboot" switch är en bra lösning som många är beredda att betala lite extra för, om det nu är så att ni inte har ert kontor nära servrarna. I övrigt vet jag vilken kvalitet som Levonline har på sin internetlina; det enda som brukar stoppa dem är DDoS-attacker mot deras "delade servrer". Punkt 1 är en "show-stopper" för mig, men punkt 2 handlar nog bara om att beskriva lite tydligare vad ni erbjuder. |
Kul att du gillade upplägget!
Anledningen till det långa avtalet är naturligtvis för att få ner månadskostnaderna på servrarna som kostar en hel del i inköp - vi har valt att bara jobba HP och Apple idag även om jag är svag för IBM-servrar också. Avtalstiden går att diskutera - ner till 12 månader mot omräkning av månadskostnaderna. Levonline har mycket riktigt kontor i samma byggnad och det har inte vi, däremot har vi tillgång till fem tekniker ifrån Internet5 (det är deras hall) som kan genomföra panikomstarter dygnet runt (vi var där 22.30 igår för att flytta en maskin åt Friskis). Eftersom sidorna inte är klara ännu är all sådan här feedback intressant - jag ska lägga till tydlig information om vad som ingår. Jag rekommenderar ILO på maskinerna och managementnätverk - då kan du alltid ansluta till din maskin och göra egna omstarter när det behövs. Både HP DL360 och 380 har denna funktionalitet. |
|
Hur mycket kostar ett 42U skåp med internet per månad hos Telenor/Internet5?
Vet ni även om man pingar bra från Europa? Tack på förhand! |
Alla tider är GMT +2. Klockan är nu 03:51. |
Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson