发爬虫和反反爬虫

精彩内容第一时间送达!

上篇从理论上总结讲述了反爬虫的原因、反爬虫的常用手段以及我们针对反爬虫进行的反反爬虫手段!这篇操刀实战爬取一些精彩图片~考虑到上篇纯粹的理论姿势都能被封,这里不做展示,相信大部分小伙伴都看到了上期的成果展示哈~

首先我们都知道要爬取网站图片有简单的几个步骤:获取网页源码、审阅元素寻找所需信息、下载并保存到指定位置。

因为本爬虫系列曾爬取过头条上的妹子图,大部分步骤雷同,这里主要是针对上篇中的反爬与反反爬进行拓展,采取模块化的思路进行程序文档编写。(推荐小甲鱼系列视频,非广告……)

首先,主函数目的就是下载并保存目标图片:

主函数中的download_img()函数需要如下代码中的几个步骤。按照模块化的思路,定义get_page函数、find_imgs函数和save_img函数,使得函数框架更加的清晰。

接下来就该写的是几个自定义函数了,而在get_page函数和save_img函数中都需要读取url,获取信息。所以考虑到代码精简,再定义个子函数url_open()。如下代码所示(注释部分为使用代理IP的时候,&header的伪装和代理IP的使用参考上篇文章)

下边是download函数里需要调用的三个自定义子函数:

以上是按照模块化的思路进行编写的程序,可读性较强,相信大家能够理解。另有一套实际操作很easy的源代码可以爬取煎蛋网的meizi图。(怕和谐,不放成果图了)可扫码联系小编索要!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180501G16IEO00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券