爬虫抓取技术

  互联网数据很多,发现好内容并能持续不断的抓取是一项不简单的工作。

反反爬虫

爬虫的固定套路也就那么多,各种网站爬取策略的不同就在于网站的反爬虫机制不同,因此多作试验,摸清网站的反爬机制,是大规模爬虫的先行工作。爬虫与反爬虫是无休止的斗争,也是一个见招拆招的过程,但总体来说,以下方法可以绕过常见的反爬虫。

  • 加上headers。这是最基础的手段。加上了请求头就可以伪装成浏览器,混过反爬的第一道关卡;反之,连请求头都不加,网站可以直接看出是程序在访问而直接拒绝。一般的网站加上User-Agent就可以,反爬严格的网站则要加上cookie甚至各种参数都要加上。
  • 随机延时。这是最简单有效的一种手段。稳定性是大规模爬虫的另一个核心问题,虽然与效率冲突。许多网站都会统计同一个IP一段时间内的访问频率,如果采集过快,会直接封禁IP。不要为了一时爽而不加延时导致几分钟后IP就被封24小时,还不如老老实实地加延时慢慢爬一夜爬完。至于延时加多少因各个网站而异,但一般情况下延时个3~5秒就足够了。
  • 如果页面量实在太大,每次访问设置的随时延时也会成为额外大量的时间成本。单个IP快速访问会有被封的风险,这是就要用代理池,有两点好处:一是降低某个IP单位时间内的访问频率,降低被封风险;二是即使IP被封,也有别的IP可以继续访问。代理池有免费和收费的,免费代理可以从许多网站上获取(这也是一个爬虫项目),但大部分都没用,有用的小部分也会很快挂掉;收费代理好一点,但也好不了多少。高质量的代理成本就高了不少,这个要结合项目实际需求来考虑成本。所以,如果网站不封IP就可以不用代理,以免减慢访问速度,增大被拒的概率。
  • 有的网站必须要登录才能访问,才能爬虫。以知乎为例,知乎的模拟登录必较简单,甚至现在都没有对帐号和密码加密,直接明文post就可以。请求头的cookie含有登录信息,而知乎的cookie寿命较长,所以可以直接在网站上人工登录然后把cookie复制到代码中;知乎目前的反爬机制是如果判断是机器人就封帐号但不封IP——封IP是同样的机器无法访问,但却可以用同样的帐号在其他机器上访问;封号是同样的帐号在各种终端上都无法访问,但同一台机器上却可以换号访问。基于这种机制,爬知乎就不需要IP代理池而需要的是帐号池。举另一个例子,腾讯有一个子网站,它也要求必须QQ登录,而且cookie只有6分钟的寿命,而且一个帐号一天只能访问130次超过就封号,无论爬得再慢——这种情况下只能搞大量的QQ号进行自动登录并不断切换。
  • 如果有的网站的反爬机制实在太过丧心病狂,各种JS代码逻辑十分复杂艰深,那只能模拟浏览器了。模拟浏览器其实就是一种自动的浏览器访问,与正常的用户访问很类似,所以可以跳过大部分的反爬机制,因为你装得实在太像正常用户;不过缺点也很明显,就是慢。所以可以用requests搞定的优先用requests,实在没有办法了再考虑模拟浏览器。
  • 验证码。验证码一出就蛋疼了……Python有自动识别图像的包,不过对于大部分网站的验证码都无能为力。写一个自动识别验证码的程序理论上不是不行,但是这种复杂的机器学习项目一点都不比爬虫系统本身难度低,从成本的角度考虑实在是得不偿失——何况对于有些网站如谷歌,验证码识别是非常困难的。所以对于验证码问题,首先是躲过去尽量不要触发验证码,实在触发了只能乖乖人工去填验证码。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏安恒信息

存在漏洞的Java及Flash版本使用者众多

众所周知的是Java和Flash历来被攻击者所青睐,这多亏了它们巨大的装机量和众多的安全问题。但与此同时被攻击者所定为目标的用户们却没有这么乐观,...

20430
来自专栏FreeBuf

PRMitM:一种可重置账号密码的中间人攻击,双因素认证也无效

在今年的IEEE研讨会上,来自以色列管理学术研究学院的研究人员展示了一种新的攻击方法。这种攻击方法被命名为PRMitM,意为“密码重置中间人攻击(Passwor...

32450
来自专栏WeTest质量开放平台团队的专栏

Qzone高性能HTTPS实践

自从去年QQ空间移动端页面开始切换到HTTPS之后,页面性能遇到了比较大的挑战,HTTPS对页面访问速度带来了比较大的影响,所以我们通过实践总结了一些能够提升H...

15220
来自专栏腾讯大讲堂的专栏

Qzone高性能HTTPS实践

Qzone移动端页面去年在切换至HTTPS后,页面加载速度遇到了较大的挑战,出现了较大的上升趋势。为了解决这个问题,Qzone前端以及运维团队通过反复实验、分析...

23150
来自专栏顶级程序员

Python 获取网易云音乐热门评论

来源:lyrichu www.cnblogs.com/lyrichu/p/6635798.html 最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进...

53070
来自专栏腾讯架构师的专栏

让互联网更快的协议,QUIC 在腾讯的实践及性能优化

本文将主要介绍 QUIC 协议在腾讯内部及腾讯云上的实践和性能优化。

1.2K80
来自专栏我的安全视界观

【业务安全】业务安全之另类隐患

接收到提测邮件后,安全测试人员首先对已知漏洞在测试环境进行验证。使用burp对登录接口进行枚举验证:

14720
来自专栏FreeBuf

木马的前世今生:上线方式的发展及新型上线方式的实现

0x00 前言 在讲文章主题之前,我们还是习惯性地聊(che)一(che)聊(dan)。 远程控制木马大家都不陌生,尤其是早期接触黑客技术的人,应该可以发现早在...

291100
来自专栏java架构师

服务治理利器Hystrix-理论篇

13240
来自专栏FreeBuf

复用代码引发悲剧:含漏洞的安卓ROM致10万用户受中间人攻击(MITM)影响

关于CyanogenMod CyanogenMod(发音:sigh-AN-oh-jen-mod。简称CM):Cyanogen团队是目前全球最大的Android第...

21150

扫码关注云+社区

领取腾讯云代金券