前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫之robots协议案例

Python爬虫之robots协议案例

作者头像
desperate633
发布2018-08-22 15:46:03
6360
发布2018-08-22 15:46:03
举报
文章被收录于专栏:desperate633desperate633

网络爬虫有时候也会引发很多的问题

  • 由于编写的爬虫的性能和其他原因,可能会对Web服务器带来巨大的资源开销
  • 服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险
  • 网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私

所以,一般部分网站会给出限制网路爬虫的协议,这就是robots协议。

  • 来源审查:判断User‐Agent进行限制 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
  • 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守

robots协议的全名为Robots Exclusion Standard,网络爬虫排除标准 作用: 网站告知网络爬虫哪些页面可以抓取,哪些不行 形式: 在网站根目录下的robots.txt文件

案例

image.png

image.png

意思就是 对于所有的user-agent: 不可以访问一下url Disallow: /?* Disallow: /pop/.html Disallow: /pinpai/.html?* 对于其他几个user-agent是禁止爬虫的,我们看一下就是一淘这些淘宝的搜索引擎,也难怪京东和淘宝哈哈哈

实际中如何遵守robots协议

  • 网络爬虫: 自动或人工识别robots.txt,再进行内容爬取
  • 约束性: Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险

image.png

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.05.17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 案例
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档