Python爬虫从入门到放弃(二十二)之 爬虫与反爬虫大战

爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?

重新理解爬虫中的一些概念

爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通常都是禁止某ip一段时间访问。 成本:反爬虫也是需要人力和机器成本 拦截:成功拦截爬虫,一般拦截率越高,误伤率也就越高

反爬虫的目的

初学者写的爬虫:简单粗暴,不管对端服务器的压力,甚至会把网站爬挂掉了

数据保护:很多的数据对某些公司网站来说是比较重要的不希望被别人爬取

商业竞争问题:这里举个例子是关于京东和天猫,假如京东内部通过程序爬取天猫所有的商品信息,从而做对应策略这样对天猫来说就造成了非常大的竞争

爬虫与反爬虫大战

上有政策下有对策,下面整理了常见的爬虫大战策略

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯Bugly的专栏

跨平台 ListView 性能优化

导语 精神哥前阵子去参加了好友小青在北京办的T沙龙,探讨移动端热更新相关的话题。Bugly 曾为大家介绍过不少腾讯内部的热更新的框架,正好这次看到了美团,去哪儿...

452120
来自专栏北京马哥教育

海量的超赞 Linux 软件

2K40
来自专栏c#开发者

框架设计指导方针[翻译]

原文 http://www.codeplex.com/AppArchGuide 本人英语水平较差献丑了 :) 框架设计指导方针 目的 1明白软件架构的概念 ...

38690
来自专栏陈帅的专栏

小心!做 UI 自动化一定要跨过这些坑

“才刚写完用例,怎么开发大哥又改了UI了?” “维护这些破用例的时间,都够我手工测三遍了,真的有意义么?” “这破手机,能不能别老是系统弹框……”

1.6K10
来自专栏web前端教室

如何从零开始,形成自己的模块化思维方式?

计算机这东西不是凭空出现的,它是为了解决一些实际的问题,有很多时候是对现实世界的模拟。遇到问题时,经常会有人说,要有大局观,要具体问题具体分析,也可以牵强的解释...

15520
来自专栏Flutter入门到实战

开发工具总结(7)之多年珍藏的Android开发必备网站和工具

版权声明:本文为博主原创文章,未经博主允许不得转载。https://www.jianshu.com/p/781c1b56bc5b

76430
来自专栏沈唁志

详解Linux运维工程师必备技能

41920
来自专栏软件测试经验与教训

如何管理测试项目(三)

38990
来自专栏阮一峰的网络日志

Google日历简易版

我试过自己搭建软件,但又懒得维护。使用过twitter,但它的档案查阅和时间序列功能实在太弱了。

19730
来自专栏Python爬虫与算法进阶

爬虫学到什么程度可以去找工作

随便看看知乎上的教程就可以入门了,就Python而言,会requests当然是不够的,还需要了解scrapy和pyspider这两个框架,scrapy_redi...

16010

扫码关注云+社区

领取腾讯云代金券