前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【重磅】谷歌发布Open Images图片数据集,包含9百万标注图片

【重磅】谷歌发布Open Images图片数据集,包含9百万标注图片

作者头像
新智元
发布2018-03-23 16:03:17
9200
发布2018-03-23 16:03:17
举报
文章被收录于专栏:新智元新智元

AI World 2016世界人工智能大会 ❶ 业界领袖回溯60年AI历史,全球对话人工智能未来挑战,权威发布2016世界人工智能名人堂及中国人工智能产业发展报告;❷ 国际大咖“视频”远程参会, Bengio 和李飞飞联袂寄语中国人工智能;❸ 探秘讯飞超脑及华为诺亚方舟实验室,最强CTO与7大研究院院长交锋;❹ 滴滴CTO与百度首席架构师坐镇智能驾驶论坛,新智元三大圆桌阵容史无前例;❺ 中国“大狗”与"X-Dog"震撼亮相,龙泉寺机器僧“贤二”卖萌。

【新智元导读】继前天发布800万视频数据集之后,今天,谷歌又发布了图片数据库Open Images,包含了900万标注数据,标签种类超过6000种。谷歌在官方博客中写到,这比只拥有1000个分类的ImageNet 更加贴近实际生活。对于想要从零开始训练计算机视觉模型的人来说,这些数据远远足够了。文中附数据下载地址。

过去几年间,机器学习的发展已经推动了计算机视觉的快速进步:从系统自动为图片生成图说,再到能对分享的图片进行自然语言回复的APP。这些进步中,大多数都要归功于公共可用的图像数据集,比如用于监督学习的 ImageNet 和COCO,以及用于非监督学习的YFCC100M。

今天, 我们发布了Open Images——一个包含了900万图像URL的数据集,值得一提的是,这些图像全部都是标签数据,标签种类超过6000种。我们尽量让数据集变得实用:数据集中所使用的标签类型比拥有1000个分类的ImageNet数据集更加贴近实际生活。对于想要从零开始训练一个深度神经网络的人来说,这些图片数据远远足够了。这些图片都拥有Creative Commons Attribution 许可。

这些图像水平的注释已经被自动地填入一个视觉模型,与谷歌云视觉API相似。在验证集中,我们使用人工评测,对这想自动标签进行检查,希望能找到并删除错误的标签。平均每一张图像又大约8个标签。以下是一些例子:

图中位子为图片的标签,比如,左图的标签有:阳台、楼梯、门面、铁、门、内部装修、大门、结构、手扶栏杆等等。

我们训练了一个Inception v3 模型,只使用Open Images的标注,这一模型已经足以被用于微调的应用以及其他一些地方,比如 DeepDream 或者 artistic style transfer ,这些应用都对过滤器的层级部署有较高要求。我们希望能在接下来的几个月中提升Open Images 中标注的质量,进而改进我们可以训练的模型质量。

这一数据集是谷歌、CMU和康奈尔大学联合研究的成果,现在,已经有大量基于Open Images 数据集的论文。我们希望Open Images 和最近发布的Youtube-8M 会成为机器学习社区有用的工具。

一些关键数据:

900万图片数据集下载:https://github.com/openimages/dataset

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-10-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档