捡漏!用谷歌图片搜索自制深度学习数据集 | 教程

铜灵 编译整理 量子位 出品

就怕前脚刚立志搞个新研究,后脚就发现没有合适的数据集可用。AI工程师从入门到放弃,可能就是这么一会的功夫。

别找了,现在深度学习数据集也能自制了。

在这份教程中,来自fast.ai的小哥哥Francisco Ingham就想手把手教你,如何利用谷歌图片搜索,DIY一份自己的深度学习数据集出来,还不会违反谷歌服务条例。 ‏ 整装待发,这样的好事其实需要六步就够了。

Let’s Go

第1步:搜索图像

非常简单,就像平时在谷歌图片中查找图像一样,输入关键词,搜索你感兴趣的图像。

谷歌图像最多显示700张图像,所以一页到底再点击“显示更多”,直到加载完毕。

小窍门:输入的关键词越精准,最后得到的数据集质量也越高。

第2步:下载图片

在浏览器中运行下面这段Javascript代码,创建数据集中所有图像的URL:

然后将这些URL保存到一个文件夹中,以备后用。

第3步:创建目录将URL传至服务器

上一步的成果,现在可以拿来用了。不过先得创建一个项目目录。作者将其命名为mkdir MyProject,不过“MyProject”可以替换成你喜欢的项目名字。

按下“Upload”键,将上传URL地址一键上传到这个目录中。

第4步:下载图像

上传到上面目录后,就能把它们从各自的URL下载下来,得到了初版数据集。

也不麻烦,,每个目录中都需要运行一次下面这段代码:

download_images(path/file, dest, max_pics=200)

只需要指定URL文件名和目标文件,就能自动下载保存,在本地就能打开图像了。

Tips:要下载图像的数量可以自己选择。

第5步:筛选图像

查看新鲜出炉的图像,可能会发现一些不需要的图像,此时就需要你手动去筛选和删除它们了。

如果一开始在谷歌搜索中的关键词没有设置好,那这一步可能得多费点时间喽。

第6步:准备训练目录

和数据集的众多兄弟姐妹一样,在开始使用它前,最好还是把里面的图片分成训练、验证和测试集。

过完这道坎,你就拥有了一个DIY的深度学习数据集了,此时有没有感觉赞赞的?

传送门

GitHub项目地址:

https://github.com/lesscomfortable/google-image-dataset

此外,Francisco Ingham还将教程搬到了fast.ai的课程仓库中,是用Jupyter Notebooks写成的。不过刚量子位看时还没有搬完。如果原地址找不到了,不妨来这里看看:

https://github.com/fastai/course-v3/blob/master/nbs/dl1/download_images.ipynb

条条大路通教程,祝你学有所得~

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小白课代表

一款小巧的去水印神器——Inpaint

2125
来自专栏AI科技评论

动态 | 中科院计算所开源Easy Machine Learning系统,用交互式图形界面简化ML开发过程

AI科技评论按:6.13号上午,中科院计算所研究员徐君在微博中宣布,Easy Machine Learning 系统开源,欢迎大家下载。AI科技评论编辑第一时间...

3608
来自专栏做全栈攻城狮

Android程序员 安卓7.0的新特性新功能 优化渲染来电

上篇介绍了安卓7.0中的多窗口支持、通知增强及即时编译的新特性。这次文章继续讲解android 7.0的新特性新功能.

1043
来自专栏科研利器

如何下载文献全文&快速找到文献DOI号【史上最强总结】

之前,本公众号推送过一个免费秒下学术文献的神器 SciHub Desktop,只需要将文献的 DOI 号输入进去再点击按钮就可以立马获取 PDF 全文,这款软件...

10.1K14
来自专栏AI科技评论

开发 | 深度学习训练时 GPU 温度过高?输入这几行命令就能迅速降温

AI科技评论按:本文作者胡智豪,原载于作者个人博客,AI科技评论经授权发布。 新买回来的不带水冷公版GPU,在满负载运行的时候,温度从室温马上飙升到85度,而且...

37612
来自专栏AI研习社

深度学习训练时 GPU 温度过高?几行命令就可迅速降温!

新买回来的不带水冷公版GPU,在满负载运行的时候,温度从室温马上飙升到85度,而且模型训练不是几分钟完事,很有可能要长期保持在高温状态下运行,让如此昂贵的GPU...

3644
来自专栏Kotlin入门系列

师万物博客的历程(总)

1684
来自专栏腾讯移动品质中心TMQ的专栏

测试建模 :从尔康的鼻孔说开来,重要的用例写三遍

看完本文你会了解以下内容 1. 什么是SUT模型 2. 测试建模在工作中究竟是怎样一个过程 3. 从业务流程到测试用例我们忽略了什么 4. 测试建模会有哪些产出...

2095
来自专栏美团技术团队

人工智能在线特征系统中的生产调度

前言 在上篇博客《人工智能在线特征系统中的数据存取技术》中,我们围绕着在线特征系统存储与读取这两方面话题,针对具体场景介绍了一些通用技术,此外特征系统还有另一个...

54110
来自专栏腾讯AI实验室的专栏

国际顶级期刊 Nature 发表腾讯 AI Lab 等医疗合作研究成果

感谢阅读腾讯AI Lab文章,我们将分享一篇发表在国际顶级刊物上借助AI方法研究心脏疾病的论文。

1631

扫码关注云+社区

领取腾讯云代金券