Kom ihåg mig?
Home Menu

Menu


Hur många scannar din sajt?

 
Ämnesverktyg Visningsalternativ
Oläst 2010-11-25, 09:36 #11
BarateaUs avatar
BarateaU BarateaU är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Nov 2007
Inlägg: 2 648
BarateaU BarateaU är inte uppkopplad
Klarade millennium-buggen
BarateaUs avatar
 
Reg.datum: Nov 2007
Inlägg: 2 648
Citat:
Ursprungligen postat av tartareandesire Visa inlägg
http://www.bad-behavior.ioerror.us/

Exemplen ovan tar ju i princip bara bort spammare ändå, vill någon scrapa din sida så hjälper det normalt sett inte ett dugg.
Scrapare måste ha en form av useragent också.
Och saknar de useragent så blockas de, och har de falsk useragent så blockas de.
Eller kommer de magiskt åt datat på annat vis.

T.ex. som i scrapebox som visserligen används av comment spammare osv så väljer man vilken typ av useragent man vill använda, eller om man vill blanda.

Senast redigerad av BarateaU den 2010-11-25 klockan 09:39
BarateaU är inte uppkopplad   Svara med citatSvara med citat
Oläst 2010-11-25, 12:51 #12
Clarence Clarence är inte uppkopplad
Administratör
 
Reg.datum: Jan 2003
Inlägg: 1 974
Clarence Clarence är inte uppkopplad
Administratör
 
Reg.datum: Jan 2003
Inlägg: 1 974
Citat:
Ursprungligen postat av BarateaU Visa inlägg
Scrapare måste ha en form av useragent också.
Och saknar de useragent så blockas de, och har de falsk useragent så blockas de.
Eller kommer de magiskt åt datat på annat vis.

T.ex. som i scrapebox som visserligen används av comment spammare osv så väljer man vilken typ av useragent man vill använda, eller om man vill blanda.
Det finns inget sätt att göra det vidare svårt att sätta en falsk useragent utan möjlighet till upptäckt.

Det de mer kompetenta verktygen (vet inte om bad behaviour hör till dem) gör är att kontrollera om useragenten som är satt har rätt andra headers i sitt request. På ett par minuter tar sig en erfaren programmerare runt detta genom att t ex använda en riktig browser, titta på request headers och kopiera både useragent och dess headers.

För t ex Google bot kan man även titta på IP-ranges om man vill gå lite längre. Men efter implementering av det har man bearbetat de scrapers som valt att kamoflera sig som googlebot. Sen får man gå vidare med alla scrapers man vill tillåta och skapa en max-gräns för antalet requests för alla andra användare för att försöka komma åt endast den värsta scrapingen som också saknar en större mängd ip-adresser de kan använda.

Kort sagt. Undvika scraping är riktigt svårt och ger ofta rätt liten nytta. Mer tidseffektivt vore att bara ändra robots-reglerna för alla okända bottar och få 100% genomslag hos de (seriösare) bots som implementerat det.
Clarence är inte uppkopplad   Svara med citatSvara med citat
Oläst 2010-11-25, 13:14 #13
tartareandesire tartareandesire är inte uppkopplad
Supermoderator
 
Reg.datum: Jan 2004
Inlägg: 11 585
tartareandesire tartareandesire är inte uppkopplad
Supermoderator
 
Reg.datum: Jan 2004
Inlägg: 11 585
Citat:
Ursprungligen postat av BarateaU Visa inlägg
Scrapare måste ha en form av useragent också.
Och saknar de useragent så blockas de, och har de falsk useragent så blockas de.
Eller kommer de magiskt åt datat på annat vis.

T.ex. som i scrapebox som visserligen används av comment spammare osv så väljer man vilken typ av useragent man vill använda, eller om man vill blanda.
Varför skulle jag inte kunna sätta en riktig useragent och rätt headers menar du? Den vägen hindrar man ingen som vill scrapa sidan utan bara en massa skräpbotar som bara är ute efter att spamma plus möjligtvis ett fåtal oerfarna copycats. Skyddet är inte alls värdelöst men det ÄR värdelöst om man tror att det är scraping man skyddar sig mot.
__________________
Full-stack developer, free for smaller assignments

Senast redigerad av tartareandesire den 2010-11-25 klockan 13:22
tartareandesire är inte uppkopplad   Svara med citatSvara med citat
Svara


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 10:14.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017