【重磅】谷歌发布Open Images图片数据集,包含9百万标注图片

AI World 2016世界人工智能大会 ❶ 业界领袖回溯60年AI历史,全球对话人工智能未来挑战,权威发布2016世界人工智能名人堂及中国人工智能产业发展报告;❷ 国际大咖“视频”远程参会, Bengio 和李飞飞联袂寄语中国人工智能;❸ 探秘讯飞超脑及华为诺亚方舟实验室,最强CTO与7大研究院院长交锋;❹ 滴滴CTO与百度首席架构师坐镇智能驾驶论坛,新智元三大圆桌阵容史无前例;❺ 中国“大狗”与"X-Dog"震撼亮相,龙泉寺机器僧“贤二”卖萌。

【新智元导读】继前天发布800万视频数据集之后,今天,谷歌又发布了图片数据库Open Images,包含了900万标注数据,标签种类超过6000种。谷歌在官方博客中写到,这比只拥有1000个分类的ImageNet 更加贴近实际生活。对于想要从零开始训练计算机视觉模型的人来说,这些数据远远足够了。文中附数据下载地址。

过去几年间,机器学习的发展已经推动了计算机视觉的快速进步:从系统自动为图片生成图说,再到能对分享的图片进行自然语言回复的APP。这些进步中,大多数都要归功于公共可用的图像数据集,比如用于监督学习的 ImageNet 和COCO,以及用于非监督学习的YFCC100M。

今天, 我们发布了Open Images——一个包含了900万图像URL的数据集,值得一提的是,这些图像全部都是标签数据,标签种类超过6000种。我们尽量让数据集变得实用:数据集中所使用的标签类型比拥有1000个分类的ImageNet数据集更加贴近实际生活。对于想要从零开始训练一个深度神经网络的人来说,这些图片数据远远足够了。这些图片都拥有Creative Commons Attribution 许可。

这些图像水平的注释已经被自动地填入一个视觉模型,与谷歌云视觉API相似。在验证集中,我们使用人工评测,对这想自动标签进行检查,希望能找到并删除错误的标签。平均每一张图像又大约8个标签。以下是一些例子:

图中位子为图片的标签,比如,左图的标签有:阳台、楼梯、门面、铁、门、内部装修、大门、结构、手扶栏杆等等。

我们训练了一个Inception v3 模型,只使用Open Images的标注,这一模型已经足以被用于微调的应用以及其他一些地方,比如 DeepDream 或者 artistic style transfer ,这些应用都对过滤器的层级部署有较高要求。我们希望能在接下来的几个月中提升Open Images 中标注的质量,进而改进我们可以训练的模型质量。

这一数据集是谷歌、CMU和康奈尔大学联合研究的成果,现在,已经有大量基于Open Images 数据集的论文。我们希望Open Images 和最近发布的Youtube-8M 会成为机器学习社区有用的工具。

一些关键数据:

900万图片数据集下载:https://github.com/openimages/dataset

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-10-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | OpenAI发布8个仿真机器人环境和HER实现:可用于训练实体机器人模型

选自OpenAI 机器之心编译 本文发布八个仿真机器人环境和 Hindsight Experience Replay 的基线实现,这是过去一年的成果总结作者已用...

3264
来自专栏AI启蒙研究院

党给我智慧给我胆,梯度给我努力的方向

1665
来自专栏ATYUN订阅号

照相时眨眼了怎么办?Facebook研究者创建AI系统,可以生成“假眼”

你可能在照相时遇到以下的情况:闪光灯闪烁,你控制不住眨了眼,照片上也许就显示出你闭眼的样子。Facebook的研究人员创建了一个人工智能系统,该系统可以用计算机...

1097
来自专栏机器学习算法与Python学习

GitHub上25个最受欢迎的开源机器学习库

在过去的几年里,机器学习为各行各业开创了新纪元,诞生了许多成功的案例: Facebook 的面部识别,Netflix 的智能电影推荐系统,PrimaAI 的图像...

974
来自专栏新智元

百度发布全深度学习文本到语音转化系统 Deep Voice,比 WaveNet 快400倍

【新智元导读】 百度最新发布文本到语音转化系统Deep Voice。百度称,这是一个全部由深度神经网络构建的系统,在文本到语音的转化速度上比 WaveNet 快...

2917
来自专栏灯塔大数据

每周学点大数据 | No.59协同过滤模型(下)

NO.58 协同过滤模型(下) Mr. 王:是的,前面的那种加权平均的形式,我们是可以直接利用的,其中的量稍作修改即可: ? 此时式中,Sij 表示的是i 和...

3475
来自专栏机器之心

ACL 2018 | 百度提出交互式语言学习新方法:让智能体具备单次概念学习能力

1904
来自专栏AI研习社

如何用深度学习推荐电影?教你做自己的推荐系统!

简介 几乎所有人都喜欢与家人、朋友一起观看电影度过闲暇时光。大家可能都有过这样的体验:本想在接下来的两个小时里看一个电影,却坐在沙发上坐了20分钟不知道看什...

4116
来自专栏专知

【斯坦福大学吴恩达博士生Ziang Xie】深度文本生成最佳实战指南(附指南下载)

【导读】人们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可...

1.2K7
来自专栏智能算法

蚁群算法(独辟蹊径的进化算法)

1. 算法背景——蚁群的自组织行为特征 高度结构化的组织——虽然蚂蚁的个体行为极其简单,但由个体组成的蚁群却构成高度结构化的社会组织,蚂蚁社会的成员有分...

3509

扫码关注云+社区

领取腾讯云代金券