WN

WN (https://www.wn.se/forum/index.php)
-   Allmänt (https://www.wn.se/forum/forumdisplay.php?f=2)
-   -   Google bot sluka nyss (https://www.wn.se/forum/showthread.php?t=4309)

Jawn 2004-11-04 11:15

Google bot sluka nyss 200mb av min bandbredd på en dag ??? hehe fattar inte jag har bara 60mb filer på webhotellet varför slukar den då 200mb bandbredd?
Det är inte så att jag gnäller över bandbredden men jag förstår inte riktigt varför den slukar 200 mb på en dag (8000 hits).

Någon som har varit med om det här någon gång?


http://www.xtremetop100.com/googlebot.jpg

robertsson 2004-11-04 11:38

Jag har inte orkat kolla i loggfilerna vem, men nån ladda ner hela min webbsida bakgrundsbilder.se (1800 bilder) igår vilket gjorde att trafikrekordet slogs med 400%. Jag har funderat hela natten vem det kan ha varit men som sagt inte orkat kolla efter.

mattiasjarnhall 2004-11-04 11:47

Citat:

Originally posted by Jawn@Nov 4 2004, 12:15
Google bot sluka nyss 200mb av min bandbredd på en dag ??? hehe fattar inte jag har bara 60mb filer på webhotellet varför slukar den då 200mb bandbredd?
Det är inte så att jag gnäller över bandbredden men jag förstår inte riktigt varför den slukar 200 mb på en dag (8000 hits).

Någon som har varit med om det här någon gång?


http://www.xtremetop100.com/googlebot.jpg

Det står ju bara att googlebot var inne senast den 4:e, han kan alltså ha slukat i sig dessa 200 MB över en betydligt större period. Eller du kanske har kollat varje dag?

Robert 2004-11-04 11:49

Citat:

Originally posted by robertsson@Nov 4 2004, 12:38
Jag har inte orkat kolla i loggfilerna vem, men nån ladda ner hela min webbsida bakgrundsbilder.se (1800 bilder) igår vilket gjorde att trafikrekordet slogs med 400%. Jag har funderat hela natten vem det kan ha varit men som sagt inte orkat kolla efter.
Det kan vara en oflinebrowser och användaren "råkade" surfa in på din sida så den plockade new hela skiten (jaja, lite långsökt, men mycket konstigt händer ibland) =)

Jawn 2004-11-04 12:08

Citat:

Ursprungligen postat av mattiasjarnhall
Citat:

Ursprungligen postat av Jawn
Google bot sluka nyss 200mb av min bandbredd på en dag ??? hehe fattar inte jag har bara 60mb filer på webhotellet varför slukar den då 200mb bandbredd?
Det är inte så att jag gnäller över bandbredden men jag förstår inte riktigt varför den slukar 200 mb på en dag (8000 hits).

Någon som har varit med om det här någon gång?


Det står ju bara att googlebot var inne senast den 4:e, han kan alltså ha slukat i sig dessa 200 MB över en betydligt större period. Eller du kanske har kollat varje dag?

Jag kollar nästan varje dag hehe plus att cpanel statsen blev nollställd för 4 dagar sen.
Tycker det är skummt bara hehe brukar vara 30 - 50mb per månad

robertsson 2004-11-04 12:11

Citat:

Ursprungligen postat av Robert
Citat:

Ursprungligen postat av robertsson
Jag har inte orkat kolla i loggfilerna vem, men nån ladda ner hela min webbsida bakgrundsbilder.se (1800 bilder) igår vilket gjorde att trafikrekordet slogs med 400%. Jag har funderat hela natten vem det kan ha varit men som sagt inte orkat kolla efter.

Det kan vara en oflinebrowser och användaren "råkade" surfa in på din sida så den plockade new hela skiten (jaja, lite långsökt, men mycket konstigt händer ibland) =)

Det var också min första tanke, men när jag såg det första inlägget i detta ämne kom jag tänka på att det kanske var google. Jag får kolla upp det. Såg precis att jag hade ca 15.000 hits mot ca 4.000 normalt.

Thomas 2004-11-04 12:39

Googlebot (Mozilla boten) har varit väldigt aggresiv senaste veckan, jag har inte sett nåt likande sedan google gjorde deepcrawls om ens då.

Vi snackar 30 -> 40 sidor i sekunden, på vissa av mina servrar där det finns mycket innehåll likt WN och AoTV.

Det är boten med UA Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) som detta gäller, och den har tidigare varit väldigt försiktig sedan jag såg den första gången.

Helt sjukt.

Thomas

Robert 2004-11-04 13:43

Citat:

Originally posted by Thomas@Nov 4 2004, 13:39
Googlebot (Mozilla boten) har varit väldigt aggresiv senaste veckan, jag har inte sett nåt likande sedan google gjorde deepcrawls om ens då.

Vi snackar 30 -> 40 sidor i sekunden, på vissa av mina servrar där det finns mycket innehåll likt WN och AoTV.

Det är boten med UA Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) som detta gäller, och den har tidigare varit väldigt försiktig sedan jag såg den första gången.

Helt sjukt.

Thomas

Stämmer IP't förövrigt? Kan vara någon som försöker komma undan med en total screenscraping genom att sätta useragent till att identifiera sig som googlebot (och därmed inte sticka ut i webloggen).

Thomas 2004-11-04 15:35

Citat:

Originally posted by Robert@Nov 4 2004, 14:43
Stämmer IP't förövrigt? Kan vara någon som försöker komma undan med en total screenscraping genom att sätta useragent till att identifiera sig som googlebot (och därmed inte sticka ut i webloggen).
Det är bekräftat att det är google.

Det är det många miljoner dollar om dagen som spenderas av google i bandbredd för att göra det som händer på internet just nu så vem det än vore skulle det varit seriöst ändå ;)

Thomas

ric 2004-11-04 16:04

Googlebot har också besökt min sida flitigt de senaste dagarna. Dagsmedel för de tre första dagarna i november är ca 5 136% större än dagsmedel för de 10 sista dagarna i oktober. Vilket är bra.

Thomas 2004-11-04 19:55

Tyvärr har det under senaste timmarna gått helt överstyr och det har sänkt vissa servrar totalt.

Undra vad dom håller på med, hundratals hits i sekunden, inte nog med att det är samma IP, det är samma domän.

Thomas

Marcus 2004-11-04 19:57

Citat:

Originally posted by Thomas@Nov 4 2004, 19:55
Tyvärr har det under senaste timmarna gått helt överstyr och det har sänkt vissa servrar totalt.

Undra vad dom håller på med, hundratals hits i sekunden mot samma domän.

Thomas

är det det dom gör att WN har så stora problem med minnet nu?

Thomas 2004-11-04 20:10

Citat:

Originally posted by marcuss@Nov 4 2004, 20:57
är det det dom gör att WN har så stora problem med minnet nu?
Möjligen, WN har 11 500 som google jobbar med, dock är dessa problem små jämfört med servrar som jag får reboota en gång i timmen.

Illa detta, vad 17 gör dom!

Thomas

Marcus 2004-11-04 20:49

Citat:

Ursprungligen postat av Thomas
Citat:

Ursprungligen postat av marcuss
är det det dom gör att WN har så stora problem med minnet nu?

Möjligen, WN har 11 500 som google jobbar med, dock är dessa problem små jämfört med servrar som jag får reboota en gång i timmen.

Illa detta, vad 17 gör dom!

Thomas

kanske idé att lägga in en robots.txt tillfälligt då?

Clarence 2004-11-04 21:39

Vissa tycker sig märka att robots.txt inte hjälper för det akuta problemet som uppstått för dem. Det finns exempel på sajter som blivit crawlade tillräckligt hårt för att det nästan ska kunna liknas vid en DDOS-attack.

Upptäcker ni sådana problem; skicka e-post till [email protected] ... Tror dock inte man kan förvänta sig ett svar då de säkerligen blir överösta med mail om bottens nuvarande beteende.

grazzy 2004-11-04 21:54

Varför bootar du om dom Thomas? Varför inte bara fixa problemet genom att tex koda en egen cachning av gamla sidor som gör att du kan leverera statiskt material?

Hårddisk är billigt idag, mod_rewrite har tom en parameter för att kolla om en fil finns innan den bestämmer vart en request skall gå.

Gör om gör rätt.


-- Where do you want to delete a post today?

Clarence 2004-11-04 22:16

Att nedsätta/anpassa sidor efter en bot som helt plöstligt fått för sig att krypa upp till 200 sidor per sekund medans de påstår något helt annat; det kan jag nog inte hålla med om är en bra idé. Många som drabbats så hårt har blockerat google per IP, temporärt. All logik talar emot att de som jobbar med googlebot med avsikt gett hastigheten som den kryper vissa sidor med.

Jawn 2004-11-05 00:08

Shit detta är knas someone messed up big time.

Det här måste ju kosta google massor tänkt all bandbredd :/ helt sjukt

Thomas 2004-11-05 00:48

Citat:

Originally posted by grazzy@Nov 4 2004, 22:54
Varför inte bara fixa problemet genom att tex koda en egen cachning av gamla sidor som gör att du kan leverera statiskt material?

Om man redan gjort detta för länge sedan, vad gör man då, inget håller för flera 100 imp's per sekund och domän om man har några domäner på servern.

Citat:

Gör om gör rätt.
Om man bara visste vad man skulle göra om, känns som robots.txt möjligen vore en lösning men som tidigare nämnts så tar det dygn innan en sådan slår igenom när en crawl tar dygn, google kollar historiskt 1 gång före varje omgång.

Vi snackar flera 100 imp's per sekund PER DOMÄN, en crawler som som beter sig normalt skall max ta 1- 2 i sekunden från samma IP för en IP kan ha 500 -> 1000 domäner ibland mer i vissa länder där IP's är bristvara.

Problemet med IPv4 xxx.xxx.xxx.xxx adresser är iofs inte så stort i USA, vissa universitet i USA har blivit tilldelade 3 gånger fler IPadresser än hela Asien och det talar väl sitt tydliga språk, det är därför man kan få 5 - 10
IPadresser inkuderat i en $99 server i USA samtidigt som svenska webbhotell hostar upp mot 1000 icke prestandakrävande siter på samma IP.

IPv6 skall bli lösningen.

Thomas

Yohan 2004-11-05 13:24

Citat:

Originally posted by robertsson@Nov 4 2004, 12:38
Jag har inte orkat kolla i loggfilerna vem, men n�n ladda ner hela min webbsida bakgrundsbilder.se (1800 bilder) ig�r vilket gjorde att trafikrekordet slogs med 400%. Jag har funderat hela natten vem det kan ha varit men som sagt inte orkat kolla efter.
Antagligen någon med ett program som Teleport Pro som uppenbarligen gillade dina bakgrunder!


Fixade åäö

Marcus 2004-11-05 14:43

Citat:

Originally posted by robertsson@Nov 4 2004, 11:38
Jag har inte orkat kolla i loggfilerna vem, men nån ladda ner hela min webbsida bakgrundsbilder.se (1800 bilder) igår vilket gjorde att trafikrekordet slogs med 400%. Jag har funderat hela natten vem det kan ha varit men som sagt inte orkat kolla efter.
Tror det är något du med en sådan sajt måste vara beredd på. Är ju bara att använda ("standardprogrammet") wget i *nix för att göra en replika på hela sajten så man kan browsa bilderna offline med valfritt eget bildgalleri-program.

Marcus 2004-11-05 14:54

Citat:

Originally posted by Thomas@Nov 5 2004, 00:48
Problemet med IPv4 xxx.xxx.xxx.xxx adresser är iofs inte så stort i USA, vissa universitet i USA har blivit tilldelade 3 gånger fler IPadresser än hela Asien och det talar väl sitt tydliga språk, det är därför man kan få 5 - 10
IPadresser inkuderat i en $99 server i USA samtidigt som svenska webbhotell hostar upp mot 1000 icke prestandakrävande siter på samma IP.

Även universiteten i Sverige har väldigt många IP-adresser tilldelade att välja på, drygt 26-tusen är ingen ovanlighet, i form av ett klass B-nät.

Edvard 2004-11-11 13:18

Kom att tänka på denna tråden idag då jag såg följande nyhet på idg!
http://www.idg.se/ArticlePages/20041...330_MD.dbp.asp

Jag tror att det är så att google har varit välldigt aktiva för att dom visste att microsoft snart skulle släppa sin sökmotor och har antagligen sett att den har varit välldigt aktiv och för att inte förlora förstaplatsen gällande antal indexerade sidor så har dom haft googlebotarna igång på högvarv, låter det troligt?

robertsson 2004-11-11 14:34

Citat:

Originally posted by Edvard@Nov 11 2004, 13:18
Kom att tänka på denna tråden idag då jag såg följande nyhet på idg!
http://www.idg.se/ArticlePages/20041...330_MD.dbp.asp

Jag tror att det är så att google har varit välldigt aktiva för att dom visste att microsoft snart skulle släppa sin sökmotor och har antagligen sett att den har varit välldigt aktiv och för att inte förlora förstaplatsen gällande antal indexerade sidor så har dom haft googlebotarna igång på högvarv, låter det troligt?

Jag tänkte exakt samma sak. Dom har gått från 4-5 miljarder sidor till drygt 8 miljarder på några dagar, så det är klart att googlebot är trött :)

Undrar var denna kapplöpning kommer sluta. Jag tror både MSN och google är uppe i 10 miljarder nästa vecka.


Alla tider är GMT +2. Klockan är nu 03:41.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson