Only U is in my heart!
I will be right here waiting for you.

修正wordpress的robots.txt做好SEO

最近分析网站日志发现,很多蜘蛛爬行http://onlyisu.in/*.html/feed页面。再到gg里面搜索了下site:onlyisu.in发现有大量的相似内容,都是来自*.html/feed。分析日志时也可以发现,百度也大量采集这个feed页面。这样大量的重复内容对SEO来说总是不利的。于是拿出时间来优化了一下robots.txt。下面总结一下优化过程。

先把把我修改后的robots贴出来,好分析。

User-agent: *

Disallow: /wp-

Allow: /wp-content/uploads/

Disallow: /feed

Disallow: /*/feed

Disallow: /*.html/feed

Disallow: /*/*/feed

Disallow: /trackback

Disallow: /*/trackback

Disallow: /*.html/trackback

Disallow: /*/*/trackback

Disallow: /index.php?

Disallow: /index.php/

Disallow: /date/

Disallow: /author

Disallow: /page/

Disallow: /?r=*

Disallow: /?p=*

Disallow: /*?replytocom=

Disallow: /*.php$

Disallow: /*.js$

Disallow: /*.css$

User-agent: Mediapartners-Google

Allow: /

Sitemap: http://onlyisu.in/sitemap.html

Sitemap: http://onlyisu.in/sitemap_baidu.xml

Sitemap: http://onlyisu.in/sitemap.xml

Sitemap: http://onlyisu.in/sitemap.xml.gz

因为每个人的博客永久固定链接结构都不一致,所以上面的设置只供大家参考,切忌完全COPY,否则将导致某些正常文章页面不被Goolge和百度搜索引擎收录。为便于大家根据自己的情况作更改,下面对robots.txt文件的每条设置逐一说明。

User-agent: * 表示对所有的搜索引擎都采用下面的规则;

Disallow: /wp- 不允许Google/百度spider抓取和索引wp-开头的文件及目录,如wp-login.php,wp-admin目录等均被阻止;

Allow: /wp-content/uploads/ 因为在上一条将wp-content目录屏蔽了,这样Google图片搜索和百度就无法访问放在/wp-content/uploads/目录下的图片,为了能使Google图片搜索收录图片等附件,将这个目录设置为Allow;

Disallow: /?p=* 禁止搜索引擎spider索引以?p=开头的网址,如单独文章页面的动态网址http://farlee.info/?p=1。

Disallow: /?r= 禁止搜索引擎spider索引文章评论链接跳转地址。

Disallow: /*?replytocom= 禁止百度spider爬取评论回复的链接。

Disallow: /feed 这行的作用是禁止Google,百度搜索引擎索引feed博客页面。博客都有一个订阅整站的feed,每个文章分类,每篇文章也分别有一个feed,feed页面和网站页面内容基本相同,如果feed页面没有被禁止访问,可想而知,这将会产生大量的重复页面。有博友反映将feed Disallow以后,从百度搜索引擎来的流量上升非常明显。这里请注意Disallow: /feed和最后加了反斜杠的Disallow: /feed/ 是完全不一样的。Disallow: /feed可以禁止的url包括:abc.com/feed,abc.com/feed.html,abc.com/feed/abc这三种形式,而Disallow: /feed/只能禁止搜索引擎访问abc.com/feed/abc这种目录形式,所以我们应该用Disallow: /feed。

Disallow: /*/feed;Disallow: /*.html/feed;Disallow: /*/*/feed 这条规则禁止Google/baidu等搜索引擎访问文章分类,标签页面以及单独文章文章页面的feed。如本文的http://onlyisu.in/wordpress-robots-txt-seo.html/feed。注意这项根据每个博客固定链接结构的不同要采取不同的设置,如abc.com/2011/8/11/1.html/feed,规则要改成Disallow: /*/*/*/*/feed

后面的trackback和feed一样。

Disallow: /index.php? 这条规则是为了防止搜索引擎收录abc.com/index.php这种url产生的动态网址

Disallow: /index.php/ 这条规则是为了防止搜索引擎收录abc.com/index.php这种url下的所有目录

Disallow: /*.php$ 这条规则是为了禁止搜索引擎访问和收录.php后缀结尾的url,包括abc.com/index.php,有效防止了首页权重被分散。

Disallow: /*.css$ 禁止搜索引擎访问css文件。

Disallow: /date/ 禁止搜索引擎访问日期存档页面

Disallow: /author 禁止搜索引擎访问作者存档页面

Disallow: /page/ 禁止搜索引擎访问博客文章翻页页面,这里设置后好处是减少了重复页面,坏处是Google和baidu的spider无法检索到老文章,因此这里要和网站地图Sitemap.xml配合使用。

User-agent: Mediapartners-Google

Allow: /

这个是允许google的广告蜘蛛爬取广告内容。

再往下就是sitemap了,没啥好说的。Robots修改后大约得48小时后才能生效。静待效果。

赞(0) 打赏
未经允许不得转载:Onlyisu » 修正wordpress的robots.txt做好SEO

相关推荐

  • 暂无文章

评论 3

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

大前端WP主题 更专业 更方便

联系我们联系我们

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏