Python＋Scrapy＋妹子图

文章来源：企鹅号 - 32768Hz

上周末看了一套视频《Scrapy爬虫框架视频》，其中最后一节视频讲了如何使用Scrapy从斗鱼下载照片。按老师的视频，写了一个下载妹子图（meizitu.com）的Scrapy脚本。

Scrapy工程脚本和下载的3135张照片打包放在了网盘中了。资源获取方式，在公众号中回复：python妹子图

很早之前装过Scrapy，但在装eric4+pyqt4时把Python环境搞崩溃了，再重新装了Python后，Scrapy就一直没再安装。之前看的Scrapy视频教程中一直没有教如何下载图片的，学完上面这套视频后，就想拿一个新的网站练练手。

周一晚上，重新安装Scrapy。安装中缺少各种文件，查百度和谷歌都没有好的解决方法。最后放弃。

周二晚上，换了个思路，登录Scrapy官网，查看到使用anaconda安装最新的Scrapy的命令为：

执行完上面这个命令后，scrapy完美执行。晕~

按照视频教程，修改了pipelines.py，settings.py，items.py和主脚本。

爬虫的主脚本为：

爬虫的基本思路：

每套图片的链接类似：

http://www.meizitu.com/a/5585.html

其中可以通过修改上面的5585这个值得到不同的套图，自己试了一下，从5000.html一直往上增加都有对应的页面。

另外，网页中图片的src地址存放的也很有规律，对于一个python小白来说，是真的太友好了。另外，终于也知道网上为啥那么多爬妹子图的教程（这种网站结构最简单）。本爬虫中最有技术含量也最简单的也就是src的xpath提取，xpath具体为：

最后，要说的是，脚本中还有一个小bug。我本想从5000.html爬到5595.html。但由于第5400.html缺少，到了5400页面后，就自动退出了。暂时还不知道如何处理这种异常，有空了再看看有没有好的解决方法。

共爬了400个页面，3135张图片，挑了几张不太暴露的：

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货