WN

WN (https://www.wn.se/forum/index.php)
-   Serversidans teknologier (https://www.wn.se/forum/forumdisplay.php?f=4)
-   -   Övervakningstjänster (https://www.wn.se/forum/showthread.php?t=27895)

Helix 2008-03-12 20:00

Har tittat på några övervakningstjänster för att veta om någon av mina burkar går ner och tänkt på vad man skall välja:

1. en tjänst som ligger utanför datahallen, typ pingdom
2. en tjänst som levereras av datahallen själv.

Jag tror att de flesta övervakar sina servrar enligt alternativ 1. Dock tjänst det som för min del att jag egentligen vill bara ha larm, om servern går ner och inte om det händer något som slår ut hela datahallen eller linan de har, vilket en händer ju alla hallar, linor någon gång. Då borde alt. 2 vara att föredra.

Vilka tjänster använder ni?

Får ni larmmeddelanden per SMS eller mail (någon extern, typ hotmail, gmal, yahoo...)?

Conth 2008-03-12 21:21

Citat:

Originally posted by Terabyte@Mar 12 2008, 20:00
Har tittat på några övervakningstjänster för att veta om någon av mina burkar går ner och tänkt på vad man skall välja:

1. en tjänst som ligger utanför datahallen, typ pingdom
2. en tjänst som levereras av datahallen själv.

Jag tror att de flesta övervakar sina servrar enligt alternativ 1. Dock tjänst det som för min del att jag egentligen vill bara ha larm, om servern går ner och inte om det händer något som slår ut hela datahallen eller linan de har, vilket en händer ju alla hallar, linor någon gång. Då borde alt. 2 vara att föredra.

Vilka tjänster använder ni?

Får ni larmmeddelanden per SMS eller mail (någon extern, typ hotmail, gmal, yahoo...)?

Jag ser inte fördelen med alternativ 2 jämfört med pingdom (som vi kör och det funkar utmärkt). Med pingdom e.dyl. får du ju "både och" dvs larm om din server eller webhotellet ligger nere....

Vi får larm via mail och/eller SMS beroende på vad det gäller.

Helix 2008-03-12 22:07

Tack för ditt svar.

Men med alternativ 1 får jag även larm då datahallen är nere, vilket inte har med min server att göra. Kommer datahallen upp så kommer ju servern upp. Känns som sådana larm är onödiga och bara stressar upp en, då man ändå inte kan göra något åt det. Så förutom att jag får veta hur upptiden är för datahallen, vad är då meningen?

jonny 2008-03-13 08:41

Citat:

Originally posted by Terabyte@Mar 12 2008, 23:07
Tack för ditt svar.
Men med alternativ 1 får jag även larm då datahallen är nere, vilket inte har med min server att göra. Kommer datahallen upp så kommer ju servern upp. Känns som sådana larm är onödiga och bara stressar upp en, då man ändå inte kan göra något åt det. Så förutom att jag får veta hur upptiden är för datahallen, vad är då meningen?

Det kan väl vara bra att veta om det är nere oavsett orsak. Är det "datahallen" kan det ju vara dags att ta tag i den delen också om det behövs.

Nu kanske inte Sajthotellet är serverägare på det sätt du tänkt dig, men vi använder primärt en lösning med Servers Alive som övervakar från flera externa platser och skickar mail och sms vid problem.

wooper 2008-03-13 09:05

Hej,
Min övervakningslösning är följande:
En server placerad i datahallen som övervakar min utrustning, skickar e-post och/eller SMS vid givna värden. Har en "garderobsserver" som övervakar den primära övervakningsservern, ifall den går ner får jag ett e-post och/eller SMS.

Allt körs på servrar med CentOS och Nagios för övervakning.

Magnus_A 2008-03-13 11:02

Monit kan du köra på egen burk och få mail när något händer. Övervakar driftstatus på många olika sätt och kan starta om apache m fl utifrån vissa kriterier. Kan även övervaka vissa tjänster på andra burkar. Monit går under *nix, finns säkert liknande för *soft.

Helix 2008-03-13 11:25

Tack. Jag vill dock inte köra något eget program, men inte bli stressad av SMS om någon strular med hallen. Endast om det är någon av mina burkar som klyddar. Så kanske alternativ 2 är bäst, samt man kan kanske köpa en extern tjänst som ger mig bra rapporter per mail (och inte SMS) om allmänna upptider för datahallen .... känns som man får nog köra båda två .....

wooper 2008-03-13 23:38

Citat:

Originally posted by Terabyte@Mar 13 2008, 12:25
Tack. Jag vill dock inte köra något eget program, men inte bli stressad av SMS om någon strular med hallen. Endast om det är någon av mina burkar som klyddar. Så kanske alternativ 2 är bäst, samt man kan kanske köpa en extern tjänst som ger mig bra rapporter per mail (och inte SMS) om allmänna upptider för datahallen .... känns som man får nog köra båda två .....

Reflekterade snabbt över en sak.
Du skriver "burkar" vilket alltså är fler än en, kan de inte övervaka varandra då? Du slipper bli larmad om kopplingen till hallen bryts plus att du har en fin liten lösning, A larmar om B är nere och tvärt om.

Xamda 2008-03-14 00:10

Terabyte - Om du ligger i en vettig hall lär du sannolikt inte få larm på grund av att hallen ligger nere. Det har hittills aldrig hänt oss i vår primära hall (där t.ex. webservrarna finns), under 4 år. Det har varit strömavbrott och nätstörningar, men redundansen har löst det utan ett enda stopp.

Vi övervakar från två, ibland tre, olika externa övervakningsservrar (våra egna) som använder olika lösningar för att övervaka alla delar i våra system, men primärt använder vi Servers Alive.

Pingdom saknar jag förtroende för då den rapporterar nedtid på flera sajter när vi vet att dessa inte haft en sekunds nedtid (både hos oss och andra). Pingdom är bra på att ge en fingervisning, men är långt ifrån tillförlitlig.

Tycker som Jonny, om din hall går ned vill du sannolikt veta det, om det händer ofta är det ju läge att byta leverantör.

Helix 2008-03-14 00:36

Xamda och wooper - det har ni helt rätt i. Något att fundera över.

Om ni använder Servers Alive, hur får ni till SMS? Ser att programmet annars larmar med t.ex. mail.

Andra förslag på bra program för Windows?

Xamda 2008-03-14 01:20

Vi har löst det genom att använda olika mailservrar för att sända mail till våra mobilabonnemang som omvadlas till sms genom vår teleoperatör (mail till sms). Vi använder Telenor och har haft ett avbrott i den tjänsten på åtta år (avbrottet var i ett par timmar under vilka de ej kunde leverera sms).

wooper 2008-03-14 08:33

Som jag tidigare nämnde är vår lösning baserad på http://www.nagios.org samt CentOS 5 i botten. Varje server kör sin egen mailserver vilket löser larmen via e-post. För att skicka SMS använder vi oss av 42IT, för att skicka SMS besöker man en spciell URL (t.ex. sms.42it.se/send.php?phone=7311111&msg=blablab) vilket är mycket simpelt och går riktigt fort.

eliasson 2008-03-14 09:25

Pingdom används här, vilket är bland det smidigaste anser jag.

jonny 2008-03-14 09:29

Om du inte vill få larm när "hela hallen går ner" kan du säkert ställa in det.

I Servers Alive kan du lägga till ett test som avbryter andra test om det är nere och larm ställs för varje test.

jomper 2008-03-14 10:12

Jag kör med Pingdom och har satt upp övervakning även på servern med IP bredvid min. Om den också är nere så vet jag att det inte är mina server som bråkar.

Inte den snyggaste lösningen kanske men det funkar tillräckligt bra.

wooper 2008-03-14 21:03

Känner till en man som körde BigBrother http://bb4.com/ under Windows för övervakning. Men efter att ha sätt Nagios hoppade han raskt över till det.

BB fungerar i alla fall på Windows.

yoggi2k5 2008-03-14 22:00

Jag använder mig också av Nagios och Munin för att övervaka och larma. För att få larm till mobilen så använder jag push-mail, dyker upp i mobilen lika snabbt som ett sms men mycket flexiblare och billigare.

Pingdom 2008-03-14 23:59

Citat:

Originally posted by Xamda@Mar 14 2008, 01:10

Pingdom saknar jag förtroende för då den rapporterar nedtid på flera sajter när vi vet att dessa inte haft en sekunds nedtid (både hos oss och andra). Pingdom är bra på att ge en fingervisning, men är långt ifrån tillförlitlig.

Hej Xamda,

Låt mig först säga att det är smickrande att så många på WN valt att använda våra tjänster.

Det förekommer att kunder till oss ibland tycker att vi upptäcker korta nertider som dem inte tycker förekommer, men i samtliga fall så har vi lyckats förklara för kunden vad detta kan beror på.

Iom. att jag saknar bakgrund till din upplevelse så ska jag istället generalisera mitt svar.
  • Låt mig först säga att vår rekommendation är att man väljer att mäta sitt mål med den högsta upplösningen vi erbjuder, nämligen 1ggr. min.
  • Alla våra checkar har en timeout på 30 sekunder.
  • Om checktyperna är http eller https så måste hela sidan ladda klart innan 30s har passerat och webbserven ska ha svarat med en positiv status kod. (Med undantag i de fall man söker efter ett nyckelord som ska eller inte ska finnas på sidan).
  • Om checktypen är en annan så råder i vissa fall vissa andra kriterier.
  • För att en check ska anses vara nere så måste en check misslyckas enligt ovanstående kriterier. Om den gör så, så görs ännu en check från ytterligare en server för att bekräfta nertiden, enbart om även denna check misslyckas så anser vi att checken är nere.
Jag utgår ifrån att det i detta fall handlar om ett http eller https check. Här är några vanliga anledningar till att en http check kan fallera.
  • Sidan ligger på en server som tillfällig blir belastad vilket leder till att sidan tar mer än 30s att generera.
  • Sidan använder sig av en extern databas (ex: MySQL) som blir lastad, sidan som är beroende av den kan då i vissa fall ta mer än 30s att generera. En annan vanligt anledning till att MySQL blir slö är att det görs en backup av MySQL. Samma sak gäller även andra databasservrar.
  • En sida inkluderar från externa källor objekt (bilder/script m.m.) där det tillfälligt av någon anledning tar tid att ladda ner detta externa objekt och sidan tar i dessa fall mer än 30s att ladda.
  • Det är nätverksproblem mellan check servern och målet (i dessa fall ligger felet med all sannolikhet nära målet). Som jag tidigare nämnde så bekräftar vi givetvis en netid från ytterligare en server, det ska alltså vara problem att nå målet från två av våra servrar.
  • Serven svara med en felaktig statuskod.
  • Sidan ligger på en server som påverkas av en backup körning.
Detta var några av många fall där en sida plötsligt under en kort period kan hamna i ett läge som gör den blir otillgänglig för våra testservrar (och vanliga internetanvändare) enligt kriterierna vi har.

För att slipa larm där en check ligger nere enbart en kort period (säg 30s och 1min) så rekommenderar vi våra kunder att ställa in larmutskicken så att dem skickas efter ex: 3 minuter av sammanhängande nertid. Om det är en sida som ligger på ett webbhotell där ni som kund inte kan göra mer än att underrätta webbhotellet så är det rekommenderat att ställa in larm på mellan 10-20 min +.

Jag hoppas att jag även om svaret var generellt lyckades förklara några av anledningarna bakom dessa kort nertider som ibland förekommer samt hur man kan konfigurera sina larm för att slippa situationer där man får larm strax innan eller efter att problemet som uppstått inte längre är ett problem.

Jag vill även tillägga att majoriteten av våra tusentals kunder inte drabbas av korta nertider, så även dessa bör iakttas om dem förekommer regelbundet. Kanske är det början till ett större problem.

Med vänlig hälsning
Sam Nurmi
Pingdom.com

Edit: Stavning


Alla tider är GMT +2. Klockan är nu 16:05.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson