PYTHON爬虫系列-图片爬取

昨天的预告不知道大家有没有看,没看也没关系,今天正片来了。由于两台电脑上面Python版本不一样,所以对昨天的代码进行了一些修改,今天用的是Python3 ,现在跟大家分享一下具体的编码过程,如有不足,敬请见谅。

1、单张图片已知图片网址,保存图片

  假设我们已经知道一张图片的网络地址,比如下面这个博客:

第一张图片的网址我们右键复制粘贴一下就看到是:

将这个地址在浏览器粘贴一下看到的是这样子的:

那么代码像下面这么写就可以了:

这时候在目标文件夹  E:\python-code\photo 我们就可以看到这张图片被保存下来了:

你非要用右键另存为也可以。。。

2、图片批量保存

根据上面的逻辑我们知道,批量图片的保存只要我们能批量获得图片的网址然后直接调用上面的函数就可以了,那接下来我们就讲一下如何获取网页图片网址。

同样以上面的那个博客为例,用下面的代码读取网页源码并从前端查看元素可以发现图片网址的规律:

网片网址规律:开头是   结尾是

那么提取图片地址的代码就可以像下面这么写:

结果如下:

那么如下批量获取图片地址呢,做个循环就可以了:

结果如下图:

那么机智的同学可能已经想到了,把保存的代码和这个合并一下不就可以批量保存了吗,对的,将 改为

最后封装代码如下:

我在这里是自己写的循环,大家也可以用一些已有的库,比如 BeautifulSoup或者正则都可以。

另外希望大家把技术用在正途上,不要用在乱七八糟的网站上

下期预告:

在Jupyter Notebook里面写SAS代码以及用Python写SAS

喜欢我就长按下面这个萌萌的二维码关注我吧~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180608G1MS1F00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动