FAQ |
Kalender |
|
![]() |
#1 | ||
|
|||
Administratör
|
Citat:
Det de mer kompetenta verktygen (vet inte om bad behaviour hör till dem) gör är att kontrollera om useragenten som är satt har rätt andra headers i sitt request. På ett par minuter tar sig en erfaren programmerare runt detta genom att t ex använda en riktig browser, titta på request headers och kopiera både useragent och dess headers. För t ex Google bot kan man även titta på IP-ranges om man vill gå lite längre. Men efter implementering av det har man bearbetat de scrapers som valt att kamoflera sig som googlebot. Sen får man gå vidare med alla scrapers man vill tillåta och skapa en max-gräns för antalet requests för alla andra användare för att försöka komma åt endast den värsta scrapingen som också saknar en större mängd ip-adresser de kan använda. Kort sagt. Undvika scraping är riktigt svårt och ger ofta rätt liten nytta. Mer tidseffektivt vore att bara ändra robots-reglerna för alla okända bottar och få 100% genomslag hos de (seriösare) bots som implementerat det.
__________________
eldefors.com - Personlig (teknik)-blogg |
||
![]() |
![]() |
![]() |
#2 | ||
|
|||
Supermoderator
|
Citat:
__________________
Full-stack developer, free for smaller assignments Senast redigerad av tartareandesire den 2010-11-25 klockan 13:22 |
||
![]() |
![]() |
![]() |
#3 | |||
|
||||
Mycket flitig postare
|
"scanning" - rätt ord är scraping.
Vanligt fenomen att bottar söker av sidor för material de anser är intressant. Finns massa bottar som scrapar eniro eller andra katalogtjänster. Ett otyg men det finns botemedel ![]() |
|||
![]() |
![]() |
Svara |
|
|