Python爬虫日记第四天之我喜欢写真

文章来源：企鹅号 - yingjiale

Python爬虫日记第四天之我喜欢写真

以为是漂亮妹纸的写真？

哈哈哈做梦！

本篇主要介绍python 爬取图片并以二进制形式保存到本地

这回爬取的是一个写真图片网站，上面有一个365日365枚照片写真

http://sozaing.com/category/photo/365photo/page/1/

分析页面可以让你明确爬取的目标：爬取每一页的20张图片，循环生成每一页的url，爬取一页时生成一个对应的页数的文件夹在本地，再将图片以二进制保存下来

首先

第一步自然是requests获取网页的源码，接着就是分析图片所在的标签，也就是我们需要的通过正则获取的内容

第二

获取图片的网页链接及图片的名称，获取图片网页链接的目的之一是为了保存到本地的时候，建立对应页码的文件夹（因为连接中包含了对应的码数）

对每一页的图片在爬取的时候都建立一个文件夹，这里需要注意直接以数字命名的文件夹不能直接放在路径中，需加上一个反斜杠

第三

循环生成url的时候，要获取最大页码数，经过分析最大页码数在第一页中存在，通过正则获取后循环

第四

此网站属于外文网站，没有翻墙工具的话加载较慢，相对的爬取速度也会较慢，但是可以考虑开多线程、多进程，或使用协程来提高速度（这些方法会在后面陆续讲解）

成果

代码

若有疑问，随时可以联系小编哦

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货