发爬虫和反反爬虫

文章来源：企鹅号 - Cpp先生

精彩内容第一时间送达！

上篇从理论上总结讲述了反爬虫的原因、反爬虫的常用手段以及我们针对反爬虫进行的反反爬虫手段！这篇操刀实战爬取一些精彩图片~（考虑到上篇纯粹的理论姿势都能被封，这里不做展示，相信大部分小伙伴都看到了上期的成果展示哈~）

首先我们都知道要爬取网站图片有简单的几个步骤：获取网页源码、审阅元素寻找所需信息、下载并保存到指定位置。

因为本爬虫系列曾爬取过头条上的妹子图，大部分步骤雷同，这里主要是针对上篇中的反爬与反反爬进行拓展，采取模块化的思路进行程序文档编写。(推荐小甲鱼系列视频，非广告……)

首先，主函数目的就是下载并保存目标图片：

主函数中的download_img()函数需要如下代码中的几个步骤。按照模块化的思路，定义get_page函数、find_imgs函数和save_img函数，使得函数框架更加的清晰。

接下来就该写的是几个自定义函数了，而在get_page函数和save_img函数中都需要读取url，获取信息。所以考虑到代码精简，再定义个子函数url_open()。如下代码所示（注释部分为使用代理IP的时候，&header的伪装和代理IP的使用参考上篇文章）

下边是download函数里需要调用的三个自定义子函数：

以上是按照模块化的思路进行编写的程序，可读性较强，相信大家能够理解。另有一套实际操作很easy的源代码可以爬取煎蛋网的meizi图。（怕和谐，不放成果图了）可扫码联系小编索要！

相关快讯