首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

给自己的网站加上robots.txt!(来自飞龙临天的整理投稿)

2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)   示例:     Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)     Disallow: /admin (禁止蜘蛛爬取...User-agent: *   Disallow: /admin/   Disallow: /tmp/   Disallow: /abc/   2、禁止admin目录,但允许抓取admin目录下的seo...  User-agent: *   Disallow: /abc/*.htm$   4、禁止抓取网站中所有的动态页面   User-agent: *   Disallow: /?   ...5、禁止百度蜘蛛抓取网站所有的图片:   User-agent: Baiduspider   Disallow: /.jpg$   Disallow: /.jpeg$   Disallow: /.gif...$   Disallow: /.png$   Disallow: /*.bmp$   6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告   User-agent: *   Disallow

1.2K62

Robots.txt指南

当然了,如果要指定所有的robot,只需用一个通配符"*"就搞定了,即:User-agent: * Disallow(拒绝访问声明):   在Robots.txt文件中,每条记录的第二个域是Disallow...这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。...而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。...譬如,并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。...User-agent: *   Disallow: /cgi-bin/Disallow: /images/   表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。

1.4K20
领券