robots文件对于不同的网站应该怎么样来写比较好?

 

  首先名字不能错,我发现很多网站的名字都没有加s,写为robot.txt,也有的人是第一字母大写,理论上这样都是无效的。

  robots是个协议,所以一些东西都需要完全按照标准的来,所以首先定义好名字为:robots.txt放在根目录

  至于不同网站不同写法,我这里列举几个例子来说明

  通用的写法:

  User-agent: *

  Disallow: /ajax/

  Disallow: /admin/

  Allow: /

  Sitemap:http://www.xxxxx.com/sitemap-index.xml

  即允许所有的搜索引擎

  不抓取AJAX的提交

  不抓取后台

  其他都允许

  并定义SITEMAP

  电商类的写法:

  User-Agent: *

  Disallow: /*?tracker_u=*

  Sitemap:http://www.xxxxx.com/sitmap/sitemap.xml

  Sitemap:http://www.xxxxx.com/sitmap/commsitemap.xml

  Sitemap:http://www.xxxxx.com/sitmap/commpro/sitemap.xml

  即允许所有的搜索引擎

  禁止抓取访客访问路径参数产生的页面

  主SITEMAP

  评论SITEMAP

  总结下来,其实是首先定义不允许抓取的页面,然后网站地图

  不允许抓取的页面跟网站业务逻辑关系很紧密

  如果你有vip部分,是收费才能看,就需要把vip目录禁止掉

  如果有自动生成的长地址,容易产生重复页面的,也需要按照规则把这些地址禁止掉

        murray

发布时间:2012-10-24   编辑:admin   

文章标签: robots文件