爬虫抓取技术

  互联网数据很多,发现好内容并能持续不断的抓取是一项不简单的工作。

反反爬虫

爬虫的固定套路也就那么多,各种网站爬取策略的不同就在于网站的反爬虫机制不同,因此多作试验,摸清网站的反爬机制,是大规模爬虫的先行工作。爬虫与反爬虫是无休止的斗争,也是一个见招拆招的过程,但总体来说,以下方法可以绕过常见的反爬虫。

  • 加上headers。这是最基础的手段。加上了请求头就可以伪装成浏览器,混过反爬的第一道关卡;反之,连请求头都不加,网站可以直接看出是程序在访问而直接拒绝。一般的网站加上User-Agent就可以,反爬严格的网站则要加上cookie甚至各种参数都要加上。
  • 随机延时。这是最简单有效的一种手段。稳定性是大规模爬虫的另一个核心问题,虽然与效率冲突。许多网站都会统计同一个IP一段时间内的访问频率,如果采集过快,会直接封禁IP。不要为了一时爽而不加延时导致几分钟后IP就被封24小时,还不如老老实实地加延时慢慢爬一夜爬完。至于延时加多少因各个网站而异,但一般情况下延时个3~5秒就足够了。
  • 如果页面量实在太大,每次访问设置的随时延时也会成为额外大量的时间成本。单个IP快速访问会有被封的风险,这是就要用代理池,有两点好处:一是降低某个IP单位时间内的访问频率,降低被封风险;二是即使IP被封,也有别的IP可以继续访问。代理池有免费和收费的,免费代理可以从许多网站上获取(这也是一个爬虫项目),但大部分都没用,有用的小部分也会很快挂掉;收费代理好一点,但也好不了多少。高质量的代理成本就高了不少,这个要结合项目实际需求来考虑成本。所以,如果网站不封IP就可以不用代理,以免减慢访问速度,增大被拒的概率。
  • 有的网站必须要登录才能访问,才能爬虫。以知乎为例,知乎的模拟登录必较简单,甚至现在都没有对帐号和密码加密,直接明文post就可以。请求头的cookie含有登录信息,而知乎的cookie寿命较长,所以可以直接在网站上人工登录然后把cookie复制到代码中;知乎目前的反爬机制是如果判断是机器人就封帐号但不封IP——封IP是同样的机器无法访问,但却可以用同样的帐号在其他机器上访问;封号是同样的帐号在各种终端上都无法访问,但同一台机器上却可以换号访问。基于这种机制,爬知乎就不需要IP代理池而需要的是帐号池。举另一个例子,腾讯有一个子网站,它也要求必须QQ登录,而且cookie只有6分钟的寿命,而且一个帐号一天只能访问130次超过就封号,无论爬得再慢——这种情况下只能搞大量的QQ号进行自动登录并不断切换。
  • 如果有的网站的反爬机制实在太过丧心病狂,各种JS代码逻辑十分复杂艰深,那只能模拟浏览器了。模拟浏览器其实就是一种自动的浏览器访问,与正常的用户访问很类似,所以可以跳过大部分的反爬机制,因为你装得实在太像正常用户;不过缺点也很明显,就是慢。所以可以用requests搞定的优先用requests,实在没有办法了再考虑模拟浏览器。
  • 验证码。验证码一出就蛋疼了……Python有自动识别图像的包,不过对于大部分网站的验证码都无能为力。写一个自动识别验证码的程序理论上不是不行,但是这种复杂的机器学习项目一点都不比爬虫系统本身难度低,从成本的角度考虑实在是得不偿失——何况对于有些网站如谷歌,验证码识别是非常困难的。所以对于验证码问题,首先是躲过去尽量不要触发验证码,实在触发了只能乖乖人工去填验证码。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • maven junit 单元测试插件配置

    单元测试插件配置 pom.xml中增加 <dependency> <groupId>junit</groupId> ...

    杉枫
  • java 中的同步机制

      对于有些场景,需要a、b线程按照顺序去执行,因为b线程要依赖a线程对某共享资源或 状态处理后,对于这种情况可以使用 private CountDownLat...

    杉枫
  • Lucene学习总结之三:Lucene的索引文件格式(1)

    Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。

    杉枫
  • 微信里的网站网址被提示已停止访问该网页该如何解决

    今天早晨发现我们公司网站只要在微信和qq中打开,分别被微信提示:已停止访问该网页,该网站链接以及在qq上被提示危险网站,千万别访问,首先先看下微信中打开网址被微...

    技术分享达人
  • 如何提高网站收录

    随着搜索引擎算法的不断更新,对网站的要求越来越高,如何加快网站内页的收录呢?这让很多站长头疼不已,大家不要着急,只要找到正确的方法,网站的内页很快就...

    貟王軍
  • 分析网站关键词排名下降的五种原因!

      网站长时间的运营就会产生一些怠慢、疏忽的情况发生,当我们疏忽或者怠慢的时候,无孔不入的“苍蝇”就会盯住我们的网站,会让我们的网站关键词排名突然下降,这个时...

    墨渊
  • 百度和 360 网站自动推送代码阶段效果展示

    前阵子魏艾斯博客更换了 sitemap 插件,又添加了 360 站长工具里面的自动推送代码,当时说过要等几天再去查看推送结果的,到现在也有快一个月了,那么百度站...

    魏艾斯博客www.vpsss.net
  • [seo]分析网站关键词排名下降的五种原因!

    Youngxj
  • Python可视化神器——Plotly详细教程

    前面我写过一篇关于plotly的文章,简要介绍了一下关于plotly的画图架构,参考链接:

    小草AI
  • (数据科学学习手札43)Plotly基础内容介绍

      Plotly是一个非常著名且强大的开源数据可视化框架,它通过构建基于浏览器显示的web形式的可交互图表来展示信息,可创建多达数十种精美的图表和地图,本文就将...

    Feffery

扫码关注云+社区

领取腾讯云代金券