Python爬虫日记第四天之我喜欢写真
以为是漂亮妹纸的写真?
哈哈哈 做梦!
本篇主要介绍python 爬取图片并以二进制形式保存到本地
这回爬取的是一个写真图片网站,上面有一个365日365枚照片写真
http://sozaing.com/category/photo/365photo/page/1/
分析页面可以让你明确爬取的目标:爬取每一页的20张图片,循环生成每一页的url,爬取一页时生成一个对应的页数的文件夹在本地,再将图片以二进制保存下来
首先
第一步自然是requests获取网页的源码,接着就是分析图片所在的标签,也就是我们需要的通过正则获取的内容
第二
获取图片的网页链接及图片的名称,获取图片网页链接的目的之一是为了保存到本地的时候,建立对应页码的文件夹(因为连接中包含了对应的码数)
对每一页的图片在爬取的时候都建立一个文件夹,这里需要注意直接以数字命名的文件夹不能直接放在路径中,需加上一个反斜杠
第三
循环生成url的时候,要获取最大页码数,经过分析最大页码数在第一页中存在,通过正则获取后循环
第四
此网站属于外文网站,没有翻墙工具的话加载较慢,相对的爬取速度也会较慢,但是可以考虑开多线程、多进程,或使用协程来提高速度(这些方法会在后面陆续讲解)
成果
代码
若有疑问,随时可以联系小编哦
领取专属 10元无门槛券
私享最新 技术干货