使用WordPress的时候正确的配置Robots.txt是很重要的,因为一不小心不是不允许访问了,就是出现大量重复页面了,而网上很多人分享的关于WordPress的Robots.txt游魂认为都是错误的,都是想当然的以为自己的配置正确,就没有人花上10分钟去测试一下,看看是不是真的屏蔽了该屏蔽的,允许了必然需要允许的。\r\n\r\n今天游魂在Google管理员工具中查Google抓取错误的时候发现“https://www.youhun.org/page/18”这个页面竟然出现在受Robots.txt限制这个选项里边,百思不得其解啊,游魂没有限制这个页面啊,难道是Robots.txt中的“Disallow: /page/1”这一行能匹配到“https://www.youhun.org/page/18”这个页面,于是游魂就再次去看了一下百度百科中关于Robots.txt的词条,不出所料,游魂的这个写法刚好能匹配到“https://www.youhun.org/page/18”、“https://www.youhun.org/page/11”这类页面。\r\n\r\n怎么办???继续查啊,游魂看到了$这个匹配行结束符,于是游魂就想到是不是自己的写法是错误的,正确的不让搜索引擎收录“https://www.youhun.org/page/1”页面的写法应该是:Disallow: /page/1$\r\n\r\n于是游魂直接在google管理员工具里边测试了一下,游魂的想法完全正确,当使用“Disallow: /page/1$”的时候,“https://www.youhun.org/page/18”这类页面就允许搜索引擎访问了,看来$这个匹配行结束符作用还挺大的,于是游魂就想到了网上很多人发布的WordPress的Robots.txt其实都是错误的,误人误己啊\r\n\r\n正确的配置应该是:\r\n
User-agent: * | 允许所有搜索引擎 |
Disallow: /wp-* | 禁止访问以wp-开头的目录 |
Disallow: /*.php$ | 禁止访问php页面 |
Disallow: /*.inc$ | 禁止访问inc后缀文件 |
Disallow: /*.js$ | 禁止访问脚本 |
Disallow: /*.css$ | 禁止访问css文件 |
Disallow: /*?s= | 禁止访问搜索结果 |
Disallow: /page/1$ | 禁止访问第一页,因为这一页和你的首页是一样的 |
Disallow: /*/trackback | 禁止访问trackback页 |
Disallow: /*/feed$ | 禁止访问feed,为什么要用$,要是有个标签是以feed开头你就明白了 |
Disallow: /*comments | 禁止访问回复,例如https://www.youhun.org/395.html#comments |
Disallow: /*?replytocom=* | 禁止访问带编号的回复,例如https://www.youhun.org/394.html?replytocom=3808#respond |
Disallow: /search/* | 禁止访问搜索,因为某些主题很奇怪,游魂遇见过 |
Sitemap: http://域名/sitemap.xml | 让蜘蛛知道sitemap在哪 |
\r\n且不说您是否使用游魂的这套Robots.txt,只要你明白禁止访问第一页的写法“Disallow: /page/1”是不对的就行了,正确的写法应该是“Disallow: /page/1$”