首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫日记第四天之我喜欢写真

Python爬虫日记第四天之我喜欢写真

以为是漂亮妹纸的写真?

哈哈哈 做梦!

本篇主要介绍python 爬取图片并以二进制形式保存到本地

这回爬取的是一个写真图片网站,上面有一个365日365枚照片写真

http://sozaing.com/category/photo/365photo/page/1/

分析页面可以让你明确爬取的目标:爬取每一页的20张图片,循环生成每一页的url,爬取一页时生成一个对应的页数的文件夹在本地,再将图片以二进制保存下来

首先

第一步自然是requests获取网页的源码,接着就是分析图片所在的标签,也就是我们需要的通过正则获取的内容

第二

获取图片的网页链接及图片的名称,获取图片网页链接的目的之一是为了保存到本地的时候,建立对应页码的文件夹(因为连接中包含了对应的码数)

对每一页的图片在爬取的时候都建立一个文件夹,这里需要注意直接以数字命名的文件夹不能直接放在路径中,需加上一个反斜杠

第三

循环生成url的时候,要获取最大页码数,经过分析最大页码数在第一页中存在,通过正则获取后循环

第四

此网站属于外文网站,没有翻墙工具的话加载较慢,相对的爬取速度也会较慢,但是可以考虑开多线程、多进程,或使用协程来提高速度(这些方法会在后面陆续讲解)

成果

代码

若有疑问,随时可以联系小编哦

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181031G1Y98Z00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券