![]() |
Hur många scannar din sajt?
För några år sedan var det rätt ovanligt, men idag är det väldigt vanligt förekommande, det ske konstant, dygnet-runt i webbloggar att man ser Ip-adresser som orimligtvis borde besöka en sida man har.
Nyss såg jag exempelvis les.lib.hibbing.k12.mn.us. ingen aning vad det är förutom att det verkar vara minesota state. Svårt att se att dom besöker en svensk sida :) Hur brukar ni göra? Skita i det / Spärra etc? Svårt och se ett bra sätt och spärra också såklart.. |
Beror lite på, kör man WP kan man installera pluginet "bad behavior" som blockar en hel del.
De är ju många som scrapar nätet och URL'er i mängder, inte bara sökmotorer utan spammare av diverse slag. |
Citat:
|
http://www.hibbing.mn.us/
Hibbing är en stad i Minnesota, K12 är det där IT programmet som USA drog igång typ 98 eller liknande... Det var nåt med att alla barnen skulle logga in på www i skolan, eller nåt liknande. (Inte Hem -pc som vi har och inte "en dator till varje elev".) Inga länkar fungerar och det är en Macserver i andra ändan... Så... du får väl dra dina egna slutsatser och göra vad du känner känns rätt för dig. Någon inom skolan i staden Hibbing, är mitt tips. Måttligt spännande... men visst... you never know!! :-) Lycka till!! *** Kuriosa: Kan tillägga att Apple för någon vecka sedan meddelade att man har beslutat lägga ner Mac OS X Server och den hårdvaran och enbart satsa på konsumentgrejer. Mera kuriosa: Tydligen kommer Bob Dylan från denna staden... Av kändis texten och museet att döma!! :-) |
Citat:
Citat:
|
K12 är inget "IT program" utan förskola till årskurs 12.
K = Kindergarten |
Citat:
Den blockar robotar som ligger med i svartlistan och en del andra saker också. Sen blockar den om någon utger sig för att vara en "useragent" som den inte är. t.ex. som denna: 217.7.253.152 pd907fd98.dip0.t-ipconnect.de User-Agent claimed to be Googlebot, claim appears to be false. GET *** HTTP/1.1 Connection: Keep-Alive User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html) Eller som denna som useragenten är i blacklisten. 64.27.0.28 unassigned.calpop.com User-Agent was found on blacklist GET *** HTTP/1.1 Connection: Keep-Alive User-Agent: Mozilla/4.0 (compatible ; MSIE 6.0; Windows NT 5.1) Eller om den saknar header. 78.129.242.88 srv-1.viewsonyou.com Required header 'Accept' missing GET / HTTP/1.1 User-Agent: Mozilla/5.0 (compatible; BuiltWith/0.3; +http://builtwith.com/bot.html) På vissa WP sidor jag har är de väldigt mycket trafik, fast 90% är bara skräp trafik som är botar, scraping, och annat skit. |
Tack BarateaU,
Mycket intressant. Försöker ta reda på var man hittar Bad Behavior om man inte kör WP, några tips? |
Citat:
Exemplen ovan tar ju i princip bara bort spammare ändå, vill någon scrapa din sida så hjälper det normalt sett inte ett dugg. |
"scanning" - rätt ord är scraping.
Vanligt fenomen att bottar söker av sidor för material de anser är intressant. Finns massa bottar som scrapar eniro eller andra katalogtjänster. Ett otyg men det finns botemedel :) |
Citat:
Och saknar de useragent så blockas de, och har de falsk useragent så blockas de. Eller kommer de magiskt åt datat på annat vis. T.ex. som i scrapebox som visserligen används av comment spammare osv så väljer man vilken typ av useragent man vill använda, eller om man vill blanda. |
Citat:
Det de mer kompetenta verktygen (vet inte om bad behaviour hör till dem) gör är att kontrollera om useragenten som är satt har rätt andra headers i sitt request. På ett par minuter tar sig en erfaren programmerare runt detta genom att t ex använda en riktig browser, titta på request headers och kopiera både useragent och dess headers. För t ex Google bot kan man även titta på IP-ranges om man vill gå lite längre. Men efter implementering av det har man bearbetat de scrapers som valt att kamoflera sig som googlebot. Sen får man gå vidare med alla scrapers man vill tillåta och skapa en max-gräns för antalet requests för alla andra användare för att försöka komma åt endast den värsta scrapingen som också saknar en större mängd ip-adresser de kan använda. Kort sagt. Undvika scraping är riktigt svårt och ger ofta rätt liten nytta. Mer tidseffektivt vore att bara ändra robots-reglerna för alla okända bottar och få 100% genomslag hos de (seriösare) bots som implementerat det. |
Citat:
|
Alla tider är GMT +2. Klockan är nu 02:49. |
Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson