最近分析网站日志发现,很多蜘蛛爬行http://onlyisu.in/*.html/feed页面。再到gg里面搜索了下site:onlyisu.in发现有大量的相似内容,都是来自*.html/feed。分析日志时也可以发现,百度也大量采集这个feed页面。这样大量的重复内容对SEO来说总是不利的。于是拿出时间来优化了一下robots.txt。下面总结一下优化过程。
先把把我修改后的robots贴出来,好分析。
User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Disallow: /feed
Disallow: /*/feed
Disallow: /*.html/feed
Disallow: /*/*/feed
Disallow: /trackback
Disallow: /*/trackback
Disallow: /*.html/trackback
Disallow: /*/*/trackback
Disallow: /index.php?
Disallow: /index.php/
Disallow: /date/
Disallow: /author
Disallow: /page/
Disallow: /?r=*
Disallow: /?p=*
Disallow: /*?replytocom=
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
User-agent: Mediapartners-Google
Allow: /
Sitemap: http://onlyisu.in/sitemap.html
Sitemap: http://onlyisu.in/sitemap_baidu.xml
Sitemap: http://onlyisu.in/sitemap.xml
Sitemap: http://onlyisu.in/sitemap.xml.gz
因为每个人的博客永久固定链接结构都不一致,所以上面的设置只供大家参考,切忌完全COPY,否则将导致某些正常文章页面不被Goolge和百度搜索引擎收录。为便于大家根据自己的情况作更改,下面对robots.txt文件的每条设置逐一说明。
User-agent: * 表示对所有的搜索引擎都采用下面的规则;
Disallow: /wp- 不允许Google/百度spider抓取和索引wp-开头的文件及目录,如wp-login.php,wp-admin目录等均被阻止;
Allow: /wp-content/uploads/ 因为在上一条将wp-content目录屏蔽了,这样Google图片搜索和百度就无法访问放在/wp-content/uploads/目录下的图片,为了能使Google图片搜索收录图片等附件,将这个目录设置为Allow;
Disallow: /?p=* 禁止搜索引擎spider索引以?p=开头的网址,如单独文章页面的动态网址http://farlee.info/?p=1。
Disallow: /?r= 禁止搜索引擎spider索引文章评论链接跳转地址。
Disallow: /*?replytocom= 禁止百度spider爬取评论回复的链接。
Disallow: /feed 这行的作用是禁止Google,百度搜索引擎索引feed博客页面。博客都有一个订阅整站的feed,每个文章分类,每篇文章也分别有一个feed,feed页面和网站页面内容基本相同,如果feed页面没有被禁止访问,可想而知,这将会产生大量的重复页面。有博友反映将feed Disallow以后,从百度搜索引擎来的流量上升非常明显。这里请注意Disallow: /feed和最后加了反斜杠的Disallow: /feed/ 是完全不一样的。Disallow: /feed可以禁止的url包括:abc.com/feed,abc.com/feed.html,abc.com/feed/abc这三种形式,而Disallow: /feed/只能禁止搜索引擎访问abc.com/feed/abc这种目录形式,所以我们应该用Disallow: /feed。
Disallow: /*/feed;Disallow: /*.html/feed;Disallow: /*/*/feed 这条规则禁止Google/baidu等搜索引擎访问文章分类,标签页面以及单独文章文章页面的feed。如本文的http://onlyisu.in/wordpress-robots-txt-seo.html/feed。注意这项根据每个博客固定链接结构的不同要采取不同的设置,如abc.com/2011/8/11/1.html/feed,规则要改成Disallow: /*/*/*/*/feed
后面的trackback和feed一样。
Disallow: /index.php? 这条规则是为了防止搜索引擎收录abc.com/index.php这种url产生的动态网址
Disallow: /index.php/ 这条规则是为了防止搜索引擎收录abc.com/index.php这种url下的所有目录
Disallow: /*.php$ 这条规则是为了禁止搜索引擎访问和收录.php后缀结尾的url,包括abc.com/index.php,有效防止了首页权重被分散。
Disallow: /*.css$ 禁止搜索引擎访问css文件。
Disallow: /date/ 禁止搜索引擎访问日期存档页面
Disallow: /author 禁止搜索引擎访问作者存档页面
Disallow: /page/ 禁止搜索引擎访问博客文章翻页页面,这里设置后好处是减少了重复页面,坏处是Google和baidu的spider无法检索到老文章,因此这里要和网站地图Sitemap.xml配合使用。
User-agent: Mediapartners-Google
Allow: /
这个是允许google的广告蜘蛛爬取广告内容。
再往下就是sitemap了,没啥好说的。Robots修改后大约得48小时后才能生效。静待效果。