您现在的位置是:网站首页 > SEO技术 > SEO教程 > SEO教程

网站robots协议规则书写及校验

远方~2020-10-24SEO教程人已围观

简介什么是robots协议?它有什么作用?今天小编就带大家总结下关于robots的一些资料,以及书写robots协议规则: robots协议介绍: robots.txt文件是存储在网站根目录下的TXT文本文档。这是网站

什么是robots协议?它有什么作用?今天小编就带大家总结下关于robots的一些资料,以及书写robots协议规则:

robots协议介绍:

robots.txt文件是存储在网站根目录下的TXT文本文档。这是网站和蜘蛛之间的协议。也称为爬虫协议、机器人协议等;网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots的作用:

1、引导搜索引擎蜘蛛抓取指定栏目或内容;
2、网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接;
3、屏蔽死链接、404错误页面;
4、屏蔽无内容、无价值页面;
5、屏蔽重复页面,如评论页、搜索结果页;(企业站点一般不做考虑)
6、屏蔽任何不想被收录的页面;
7、引导蜘蛛抓取网站地图;
没有robots.txt协议文本的弊端:
1、如果网站中没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即使被搜索引擎蜘蛛爬行,也不会增加网站的收录率和权重,只会浪费服务器资源;
2、搜索引擎派出的蜘蛛资源也是有限的,我们要做的应该是尽量让蜘蛛爬行网站重点文件、目录,节约蜘蛛资源。


robots协议规则

robots规则书写:

1、屏蔽整站不让某个蜘蛛抓取:(如百度蜘蛛)
    User-agent: Baiduspider
    Disallow: /
2、不允许所有蜘蛛抓取:

    User-agent: *
    Disallow: /
3、禁止搜索引擎抓取特定目录

    User-agent: Baiduspider
    Disallow: /dede
      #禁止访问带有dede字样的文件 如:dede.html   dedessss.html    dede/index.html


    User-agent: Baiduspider
    Disallow: /dede/
      #禁止访问 /dede/里的所有文件夹

4、禁止baidu目录,但允许抓取baidu目录下的leyu子目录
5、不让蜘蛛抓取某个文件夹下的某个内容,或者不让蜘蛛抓取某个文件夹,但又抓取里面某个文件。
    User-agent: *
    Disallow: /目录1/
    Allow: /目录1/目录2
6、禁止抓取/about/目录下的所有以".htm”为后缀的URL(包含子目录)
7、禁止抓取网站中所有的动态页面
8、屏蔽js    css

    User-agent: *
    Disallow: /*.js$
    Disallow: /*.css$
9、禁止百度蜘蛛抓取网站所有的图片
robots规则

robots规则书写注意事项:

1、robots.txt 文件必须放在网站的根目录,不可以放在子目录。
2、robots.txt 文件名命名必须小写,记得在robot面加“s”。
3、路径后面加斜杠“/” 和不加斜杠的是有区别的

很赞哦! ()

站点信息

  • 建站时间:2020-06-22
  • 网站名称:小白建站
  • 网站主题:网站建设,SEO技术
  • 文章统计:89 篇
  • 微信公众号:扫描二维码,关注我们