思路分析
Python有很多的第三方库,可以帮助我们实现各种各样的功能。问题在于,我们弄清楚我们需要什么:
1.http请求库,根据网站地址可以获取网页源代码。甚至可以下载图片写入磁盘。
2.解析网页源代码,识别图片连接地址。比如正则表达式,或者简易的第三方库。
3.支持构建多线程或线程池。
4.如果可能,需要伪造成浏览器,或绕过网站校验。(嗯,网站有可能会防着爬虫 ;-))
5.如果可能,也需要自动创建目录,随机数、日期时间等相关内容。
如此,我们开始搞事情。
环境配置
操作系统:windows 或 linux 皆可
Python版本:Python3.6 ( not Python 2.x 哦)
第三方库
urllib.request
threading 或者 concurrent.futures 多线程或线程池(python3.2+)
re 正则表达式内置模块
os 操作系统内置模块
伪装为浏览器
import urllib.request
获取网页源代码
下载单个图片
下载一批图片(多线程/线程池模式皆支持)
调用例子
如百度贴吧为例
效果
领取专属 10元无门槛券
私享最新 技术干货