首页
学习
活动
专区
工具
TVP
发布

爬虫冷知识:robot

分享一个关于爬虫的冷知识。毕竟爬虫是去抓取别人家的内容给自己带来利益,如果别人不愿意网站内容被你的爬虫抓取,该怎么声明呢?他可以在网站根目录下放一个robots.txt文件,里面可以描述该网站哪些页面可以被抓取,哪些不能够。可以看下淘宝主站的robots文件,里面就不允许百度抓取他家的某些网页...

robots.txt文件的写法

User-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/   这里定义是禁止爬寻require目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

Disallow: /cgi-bin/*.htm 禁

有趣的人万里挑一

有趣的人万里挑一

止访问/cgi-bin/目录下的所

有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有的动态页面

Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件

User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符

Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。

User-agent:后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

Robot特殊参数:

允许 Googlebot:

如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:

User-agent:

Disallow:/

User-agent:Googlebot

Disallow:

Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。

现在可以试试https://www.taobao.com/robots.txt罗

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180206A0NKKT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券