首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    给自己的网站加上robots.txt!(来自飞龙临天的整理投稿)

    2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)   示例:     Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)     Disallow: /admin (禁止蜘蛛爬取...User-agent: *   Disallow: /admin/   Disallow: /tmp/   Disallow: /abc/   2、禁止admin目录,但允许抓取admin目录下的seo...  User-agent: *   Disallow: /abc/*.htm$   4、禁止抓取网站中所有的动态页面   User-agent: *   Disallow: /?   ...5、禁止百度蜘蛛抓取网站所有的图片:   User-agent: Baiduspider   Disallow: /.jpg$   Disallow: /.jpeg$   Disallow: /.gif...$   Disallow: /.png$   Disallow: /*.bmp$   6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告   User-agent: *   Disallow

    1.3K62

    Robots.txt指南

    当然了,如果要指定所有的robot,只需用一个通配符"*"就搞定了,即:User-agent: * Disallow(拒绝访问声明):   在Robots.txt文件中,每条记录的第二个域是Disallow...这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。...而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。...譬如,并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。...User-agent: *   Disallow: /cgi-bin/Disallow: /images/   表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。

    1.5K20

    什么是robots.txt文件

    Disallow: 该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。...例如”Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问,而”Disallow:/help/”则允许robot访问/help.html,而不能访问...任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”文件中,至少要有一条Disallow记录。...一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。...需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

    86910
    领券