如何用 Python 脚本批量下载 Google 图像?

(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)

问题

如何用Python和深度神经网络识别图像?》一文中,我给你展示了如何用深度学习,教电脑区分机器人瓦力和哆啦a梦。

很快就有用户在后台留言,问:

老师,我想自己训练一个图片分类器,到哪里去批量下载带标注的训练图像呢?

说说我写教程的时候,是如何找图片的吧。

最大的图片库,当然就是 Google 了。

在 Google 图像栏目下,键入"Walle"。

怎么样?搜索结果很符合需求吧。

你不但找到了一批高质量图片,而且它们的标注, Google 都帮你打好了。

下面一步,自然就是把这些图片下载下来了。

我让学生实际动手做,每个人找两个与别人不同的图像集合,尝试根据教程做深度学习分类。

我提供给他们的方案(几款不同的 Chrome 浏览器插件),效果都不好。

有的才下了几张,就停工,甚至把浏览器整崩溃了。

有的下载图片,都是重复的。

学生告诉我,经验证,最简单有效的方法,是一张张手动点击下载……

这显然不是正经办法。

痛点

渴望从 Google 图片库高效批量获得优质带标注图像,不会是个案。

这个大众痛点,真的没有人尝试解决吗?

今天,一个偶然的机会,我发现了一个特别棒的 Github 项目,叫做 google-images-download

Github repo 链接在这里。

项目发布至今,只有短短5个月的时间,星标数量居然已经上了2000,看来确实非常受欢迎。

google-images-download 是个 Python 脚本。

使用它,你可以一条命令,就完成 Google 图片搜索和批量下载功能。

而且,这工具还跨平台运行,Linux, Windows 和 macOS 都支持。

简直是懒人福音。

安装

google-images-download 安装很简单。

以 macOS 为例,只需要在终端下,执行以下命令:

pip install google_images_download

安装就算完成了。

当然,这需要你系统里已经安装了 Python 环境。

如果你还没有安装,或者对终端操作命令不太熟悉,可以参考我的《如何安装Python运行环境Anaconda?(视频教程)》一文,学习如何下载安装 Anaconda ,和进行终端命令行操作。

尝试

进入下载目录:

cd ~/Downloads

我们尝试下载一些图片。

《我不是药神》里面有个叫谭卓的女演员,演的不错。可是我一开始,把她当成郝蕾了。

咱们尝试下载一些谭卓的图片吧。

终端里面执行:

googleimagesdownload -k "谭卓" -l 20

解释一下,这里的 -k 指的是 "keyword",也就是“关键词”,后面用双引号括起来要查找的关键词。

你可以看出,使用中文关键词,也没问题。

后面的 -l ,指的是"limit",也就是图片数量限定,你需要指定自己要下载多少张图像。

本例中,我们要20张。

下面是执行过程:

执行完毕。

可以看到,下载过程中,发生了一个错误。

但程序依然锲而不舍,帮我们把下载流程运行完毕。

我们看看结果。

下载的图片都存放在 ~/Downloads/downloads/谭卓 下面,google-images-download 非常贴心地,为我们建立子目录。

我们在 Finder 里打开看看:

看了半天,有的照片,还是跟郝蕾分不大清楚。

为了彻底分清两位女演员,我们再下载 200 张郝蕾的照片吧。

仿照刚才的命令,我们执行:

googleimagesdownload -k "郝蕾" -l 200

然后……就报错了:

解决

遇到问题,不要慌。

你得认真看看错误提示。

注意其中出现了一个关键词:chromedriver

这是个什么东西呢?

我们回到 google-images-download 的 github 页面,以 chromedriver 为关键词进行检索。

你会立即找到如下结果:

原来如果你要的图片数量超过100张,那么程序就必须调用 Selenium 和 chromedriver 才行。

Selenium 在你安装 google-images-download 的时候,已经自动安装好了。

你只需要下载 chromedriver ,并且指定路径。

下载链接在这里。

请根据你的操作系统类型,选择合适的版本:

我选的是 macOS 版本。

下载后,压缩包里面只有一个文件,把它解压,放在 ~/Downloads 目录下。

然后,执行:

googleimagesdownload -k "郝蕾" -l 200 --chromedriver="./chromedriver"

这里 --chromedriver 参数,用来告诉 google-images-download ,解压后 chromedriver 所在路径。

这回机器勤勤恳恳,帮我们下载郝蕾的照片了。

200张图片,需要下载一会儿。请耐心等待。

下完了。

中间也有一些报错,部分图片没有正确下载。

好在,这对总体结果没有太大影响。

为了保险起见,建议你设置下载数量时,多设置一些。

给自己留出安全边际嘛。

咱们打开下载后的目录 ~/Downloads/downloads/郝蕾 看看:

这回,你能分清楚她俩不?

原文发布于微信公众号 - 玉树芝兰(nkwangshuyi)

原文发表时间:2018-07-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

【直播】我的基因组70:比对文件并不能完美的还原出测序文件

前面我们说到过可以用软件或者自己写脚本从已经比对到参考基因组的sam/bam格式文件提取出原始的测序fastq文件。 但是我在IGV里面检查bam文件的时候发现...

3467
来自专栏进击的程序猿

Dynamo:Amazon的高可用性的键-值存储系统

Dynamo是一个分布式键值系统,最初用于支持购物车系统,强调的是提供一个“永远在线“的用户体验。

1292
来自专栏小白课代表

无需PS 一键编辑、压缩GIF。

微信公众平台规定GIF图不得超过2M,但是一张清楚的时间长的动图录制出来怎么可能那么小呢!还有聊天的时候,看到好玩的动图想要添加到表情,然后。。。

4581
来自专栏phodal

前后端分离之领域模型的思考

我们总以为前后端分离之后,我们就可以写出更干净的View。然而,现实并没有那么美好。因为在我们的View层里,不仅仅只有Template,还有Controlle...

2035
来自专栏云时之间

基于百度翻译的简单爬虫翻译-- coding:utf-8 --访问网址模拟浏览器创建文件夹用一个text文件保存,文件名用单词名字

因为最近有数据需求,自己写了一个简单的小爬虫,但是这是第一版还是比较简陋,慢慢更新吧. ---- 能够实现的功能是查询英语单词和中文单词并且能够找出读音来,希望...

3267
来自专栏编程微刊

如何在电脑上保存微信公众号文章封面图片?

3K5
来自专栏FreeBuf

使用Python以及C++简单绕过反爬虫机制

0x00 某些网站有反爬虫的机制 对于刚学习了几天python的我,对爬虫颇有兴趣,但是某些“想要的”网站上具有反爬虫机制,如果说使用延迟或者代理,这样的效率并...

26210
来自专栏iOSDevLog

Google Colab免费GPU教程

现在,你可以开发深度学习与应用谷歌Colaboratory -on的免费特斯拉K80 GPU -使用Keras,Tensorflow和PyTorch。

5415
来自专栏吴伟祥

MySQL基准测试 转

基准测试是  指通过设计科学的测试方法、测试工具和测试系统,实现对一类测试对象的某项性能指标进行定量的和可对比的测试。例如,对计算机CPU进行浮点运算、数据访问...

1613
来自专栏沈唁志

如何简单计算PHP网站是否已经最高负载

2485

扫码关注云+社区

领取腾讯云代金券