上周末看了一套视频《Scrapy爬虫框架视频》,其中最后一节视频讲了如何使用Scrapy从斗鱼下载照片。按老师的视频,写了一个下载妹子图(meizitu.com)的Scrapy脚本。
Scrapy工程脚本和下载的3135张照片打包放在了网盘中了。资源获取方式,在公众号中回复:python妹子图
很早之前装过Scrapy,但在装eric4+pyqt4时把Python环境搞崩溃了,再重新装了Python后,Scrapy就一直没再安装。之前看的Scrapy视频教程中一直没有教如何下载图片的,学完上面这套视频后,就想拿一个新的网站练练手。
周一晚上,重新安装Scrapy。安装中缺少各种文件,查百度和谷歌都没有好的解决方法。最后放弃。
周二晚上,换了个思路,登录Scrapy官网,查看到使用anaconda安装最新的Scrapy的命令为:
执行完上面这个命令后,scrapy完美执行。晕~
按照视频教程,修改了pipelines.py,settings.py,items.py和主脚本。
爬虫的主脚本为:
爬虫的基本思路:
每套图片的链接类似:
http://www.meizitu.com/a/5585.html
其中可以通过修改上面的5585这个值得到不同的套图,自己试了一下,从5000.html一直往上增加都有对应的页面。
另外,网页中图片的src地址存放的也很有规律,对于一个python小白来说,是真的太友好了。另外,终于也知道网上为啥那么多爬妹子图的教程(这种网站结构最简单)。本爬虫中最有技术含量也最简单的也就是src的xpath提取,xpath具体为:
最后,要说的是,脚本中还有一个小bug。我本想从5000.html爬到5595.html。但由于第5400.html缺少,到了5400页面后,就自动退出了。暂时还不知道如何处理这种异常,有空了再看看有没有好的解决方法。
共爬了400个页面,3135张图片,挑了几张不太暴露的:
领取专属 10元无门槛券
私享最新 技术干货