WN - Hur många scannar din sajt?

WN (https://www.wn.se/forum/index.php)

- Allmänt (https://www.wn.se/forum/forumdisplay.php?f=2)

- - Hur många scannar din sajt? (https://www.wn.se/forum/showthread.php?t=1045012)

studiox

2010-11-24 15:07

Hur många scannar din sajt?

För några år sedan var det rätt ovanligt, men idag är det väldigt vanligt förekommande, det ske konstant, dygnet-runt i webbloggar att man ser Ip-adresser som orimligtvis borde besöka en sida man har.

Nyss såg jag exempelvis les.lib.hibbing.k12.mn.us. ingen aning vad det är förutom att det verkar vara minesota state. Svårt att se att dom besöker en svensk sida :)

Hur brukar ni göra? Skita i det / Spärra etc?

Svårt och se ett bra sätt och spärra också såklart..

BarateaU

2010-11-24 16:26

Beror lite på, kör man WP kan man installera pluginet "bad behavior" som blockar en hel del.
De är ju många som scrapar nätet och URL'er i mängder, inte bara sökmotorer utan spammare av diverse slag.

tartareandesire

2010-11-24 16:49

Citat:

Ursprungligen postat av BarateaU (Inlägg 20379523)

Bad Behavior (funkar inte bara till WP) skyddar väl i princip bara mot spammare? Att skydda sig mot scraping är betydligt svårare. Den som har några smarta lösningar får gärna tipsa. Inte många WP-sidor som har något material värt att scrapa.

MrBob

2010-11-24 16:50

http://www.hibbing.mn.us/

Hibbing är en stad i Minnesota, K12 är det där IT programmet som USA drog igång typ 98 eller liknande...
Det var nåt med att alla barnen skulle logga in på www i skolan, eller nåt liknande. (Inte Hem -pc som vi har och inte "en dator till varje elev".)

Inga länkar fungerar och det är en Macserver i andra ändan...
Så... du får väl dra dina egna slutsatser och göra vad du känner känns rätt för dig.
Någon inom skolan i staden Hibbing, är mitt tips.
Måttligt spännande... men visst... you never know!! :-)

Lycka till!!

***
Kuriosa:
Kan tillägga att Apple för någon vecka sedan meddelade att man har beslutat lägga ner Mac OS X Server och den hårdvaran och enbart satsa på konsumentgrejer.

Mera kuriosa:
Tydligen kommer Bob Dylan från denna staden... Av kändis texten och museet att döma!! :-)

studiox

2010-11-24 17:02

Citat:

Ursprungligen postat av MrBob (Inlägg 20379529)

http://www.hibbing.mn.us/

Någon inom skolan i staden Hibbing, är mitt tips.
Måttligt spännande... men visst... you never know!! :-)

Det var mest ett exempel. Spontant så tror jag att det i det där fallet kanske rör sig om ett bibliotet där det eventuellt råkar sitta en svensk eller att biblioteket scannar stora stygga internet (ungefär som Kungliga biblioteket)

Citat:

Ursprungligen postat av MrBob (Inlägg 20379529)

Kan tillägga att Apple för någon vecka sedan meddelade att man har beslutat lägga ner Mac OS X Server och den hårdvaran och enbart satsa på konsumentgrejer.

Njae, det är nog snart 2 veckor sen och det är XServer som dom beslutat sig för att lägga ner, inte OSX Server.

hnn	2010-11-24 17:46

K12 är inget "IT program" utan förskola till årskurs 12.

K = Kindergarten

BarateaU

2010-11-24 17:46

Citat:

Ursprungligen postat av tartareandesire (Inlägg 20379528)

Mja och nej, inte bara mot spammare.
Den blockar robotar som ligger med i svartlistan och en del andra saker också.

Sen blockar den om någon utger sig för att vara en "useragent" som den inte är.
t.ex. som denna:

217.7.253.152
pd907fd98.dip0.t-ipconnect.de

User-Agent claimed to be Googlebot, claim appears to be false. GET *** HTTP/1.1
Connection: Keep-Alive
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)

Eller som denna som useragenten är i blacklisten.
64.27.0.28
unassigned.calpop.com

User-Agent was found on blacklist GET *** HTTP/1.1
Connection: Keep-Alive
User-Agent: Mozilla/4.0 (compatible ; MSIE 6.0; Windows NT 5.1)

Eller om den saknar header.

78.129.242.88
srv-1.viewsonyou.com

Required header 'Accept' missing GET / HTTP/1.1
User-Agent: Mozilla/5.0 (compatible; BuiltWith/0.3; +http://builtwith.com/bot.html)

På vissa WP sidor jag har är de väldigt mycket trafik, fast 90% är bara skräp trafik som är botar, scraping, och annat skit.

studiox

2010-11-25 00:12

Tack BarateaU,
Mycket intressant.

Försöker ta reda på var man hittar Bad Behavior om man inte kör WP, några tips?

tartareandesire

2010-11-25 01:16

Citat:

Ursprungligen postat av studiox (Inlägg 20379602)

Tack BarateaU,
Mycket intressant.

Försöker ta reda på var man hittar Bad Behavior om man inte kör WP, några tips?

http://www.bad-behavior.ioerror.us/

Exemplen ovan tar ju i princip bara bort spammare ändå, vill någon scrapa din sida så hjälper det normalt sett inte ett dugg.

Norman

2010-11-25 04:52

"scanning" - rätt ord är scraping.
Vanligt fenomen att bottar söker av sidor för material de anser är intressant.

Finns massa bottar som scrapar eniro eller andra katalogtjänster. Ett otyg men det finns botemedel :)

BarateaU

2010-11-25 10:36

Citat:

Ursprungligen postat av tartareandesire (Inlägg 20379608)

http://www.bad-behavior.ioerror.us/

Exemplen ovan tar ju i princip bara bort spammare ändå, vill någon scrapa din sida så hjälper det normalt sett inte ett dugg.

Scrapare måste ha en form av useragent också.
Och saknar de useragent så blockas de, och har de falsk useragent så blockas de.
Eller kommer de magiskt åt datat på annat vis.

T.ex. som i scrapebox som visserligen används av comment spammare osv så väljer man vilken typ av useragent man vill använda, eller om man vill blanda.

Clarence

2010-11-25 13:51

Citat:

Ursprungligen postat av BarateaU (Inlägg 20379639)

Det finns inget sätt att göra det vidare svårt att sätta en falsk useragent utan möjlighet till upptäckt.

Det de mer kompetenta verktygen (vet inte om bad behaviour hör till dem) gör är att kontrollera om useragenten som är satt har rätt andra headers i sitt request. På ett par minuter tar sig en erfaren programmerare runt detta genom att t ex använda en riktig browser, titta på request headers och kopiera både useragent och dess headers.

För t ex Google bot kan man även titta på IP-ranges om man vill gå lite längre. Men efter implementering av det har man bearbetat de scrapers som valt att kamoflera sig som googlebot. Sen får man gå vidare med alla scrapers man vill tillåta och skapa en max-gräns för antalet requests för alla andra användare för att försöka komma åt endast den värsta scrapingen som också saknar en större mängd ip-adresser de kan använda.

Kort sagt. Undvika scraping är riktigt svårt och ger ofta rätt liten nytta. Mer tidseffektivt vore att bara ändra robots-reglerna för alla okända bottar och få 100% genomslag hos de (seriösare) bots som implementerat det.

tartareandesire

2010-11-25 14:14

Citat:

Ursprungligen postat av BarateaU (Inlägg 20379639)

Varför skulle jag inte kunna sätta en riktig useragent och rätt headers menar du? Den vägen hindrar man ingen som vill scrapa sidan utan bara en massa skräpbotar som bara är ute efter att spamma plus möjligtvis ett fåtal oerfarna copycats. Skyddet är inte alls värdelöst men det ÄR värdelöst om man tror att det är scraping man skyddar sig mot.

Alla tider är GMT +2. Klockan är nu 17:41.