WN

WN (https://www.wn.se/forum/index.php)
-   Sökmotorpositionering (https://www.wn.se/forum/forumdisplay.php?f=11)
-   -   Ta bort utskriftssidor med ? i url med robots.txt (https://www.wn.se/forum/showthread.php?t=22321)

Seattlegrunge 2007-07-18 00:56

Har t ex följande url:er indexerade i bl a Google:

hxxp://www.xxxxxxxxxx.se/nyheter/blabla-blabla-bla/index.xml
hxxp://www.xxxxxxxxxx.se/nyheter/blabla-blabla-bla/index.xml?__xsl=/cms-print.xsl
hxxp://www.xxxxxxxxxx.se/nyheter/blabla-blabla-bla/index.xml?start=0

Vill så klart att endast den översta url:en ska vara indexerad. Hur kan jag exkludera de andra två med hjälp av robots.txt?

Kan man skriva som följer?

User-agent: *
Disallow: /*?

eller kanske

User-agent: *
Disallow: /*?*

Man kan väl i så fall kanske även skriva mer specifikt? Som t ex:

User-agent: *
Disallow: /*?__xsl=/cms-print.xsl

Som ni ser i url:erna ovan så är underkatalogen "nyheter".
Men om jag nu skulle ha en uppsättning exakt samma länkar förutom att "nyheter" är utbytt till "arkiv", skulle det då finnas en smidigt sätt att kombinera disallow-funktionen?

kers 2007-07-18 01:31

Tyvärr kan du inte använda wildcards i robots.txt. Specialtecknet '*' är inte heller ett tradtionellt wildcard utan betyder 'Alla user-agents som inte definerats ovan' :(

Du får lägga in noindex i metataggen på utskriftssidorna: http://www.robotstxt.org/wc/meta-user.html


Alla tider är GMT +2. Klockan är nu 11:10.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson