Python爬虫从入门到放弃(二十二)之 爬虫与反爬虫大战

爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?

重新理解爬虫中的一些概念

爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通常都是禁止某ip一段时间访问。 成本:反爬虫也是需要人力和机器成本 拦截:成功拦截爬虫,一般拦截率越高,误伤率也就越高

反爬虫的目的

初学者写的爬虫:简单粗暴,不管对端服务器的压力,甚至会把网站爬挂掉了

数据保护:很多的数据对某些公司网站来说是比较重要的不希望被别人爬取

商业竞争问题:这里举个例子是关于京东和天猫,假如京东内部通过程序爬取天猫所有的商品信息,从而做对应策略这样对天猫来说就造成了非常大的竞争

爬虫与反爬虫大战

上有政策下有对策,下面整理了常见的爬虫大战策略

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏微信小程序开发

推荐 | 超好用的报名工具小程序,值得收藏

5694
来自专栏云飞学编程

Python爬虫简单教程分享,透露最新学习方法!

假如你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网能够获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优异东西,...

832
来自专栏小文博客

WebP为何那么受欢迎?

6374
来自专栏小文博客

WebP为何那么受欢迎?

WebP 的优势体现在它具有更优的图像数据压缩算法,能带来更小的图片体积,而且拥有肉眼识别无差异的图像质量;同时具备了无损和有损的压缩模式、Alpha 透明以及...

3699
来自专栏我和PYTHON有个约会

大牧夜话——爬虫篇-预告片PYTHON爬虫-江湖夜话

应大家的要求,最近打算整理一下PYTHON爬虫的东东,希望能对入门的童鞋们有所助益!本人技术一般水平有限,如有不妥请联系或者私信本人,互相进步。 内容会同步在...

702
来自专栏西枫里博客

关于ICP备案你所不了解的那些事

原打算这篇文章是写成正常的网站备案指导步骤的,在写的过程中,我发现其实各大IDC厂商的的帮助信息都已经非常明确具体了,甚至细分到每个省区有不同的细则都标识的很清...

1643
来自专栏大数据文摘

重磅译制 | 更新:牛津大学xDeepMind自然语言处理 第6讲(上)NLP硬件和软件-英伟达GPU

1228
来自专栏九彩拼盘的叨叨叨

活动#3 读书,写读书笔记

废话不多说,行动起来吧。大家写的读书笔记链接可以在本文评论~下面是几个可能对你有用的链接

631
来自专栏云市场·精选汇

想做个网站,却说要“备案”,那什么是“备案”呢?

做网站,在使用国内服务器的时候,就需要去国家工信部门做“备案”了;国外服务器,不论是美国、香港还是台湾的服务器,是不需要备案了。

3423
来自专栏程序员宝库

我的爬虫技术经历

1. 前言 爬虫,这个词很多朋友第一次听到,第一感觉应该是各种小虫子,应该不会和某种计算机技术联系在一起。我第一次听到这个词,就是这样一个感觉。但是当这个这个词...

37612

扫码关注云+社区