【重磅】谷歌发布Open Images图片数据集，包含9百万标注图片

新智元

发布于 2018-03-23 16:03:17

9990

发布于 2018-03-23 16:03:17

文章被收录于专栏：新智元

AI World 2016世界人工智能大会 ❶ 业界领袖回溯60年AI历史，全球对话人工智能未来挑战，权威发布2016世界人工智能名人堂及中国人工智能产业发展报告；❷ 国际大咖“视频”远程参会， Bengio 和李飞飞联袂寄语中国人工智能；❸ 探秘讯飞超脑及华为诺亚方舟实验室，最强CTO与7大研究院院长交锋；❹ 滴滴CTO与百度首席架构师坐镇智能驾驶论坛，新智元三大圆桌阵容史无前例；❺ 中国“大狗”与"X-Dog"震撼亮相，龙泉寺机器僧“贤二”卖萌。

【新智元导读】继前天发布800万视频数据集之后，今天，谷歌又发布了图片数据库Open Images，包含了900万标注数据，标签种类超过6000种。谷歌在官方博客中写到，这比只拥有1000个分类的ImageNet 更加贴近实际生活。对于想要从零开始训练计算机视觉模型的人来说，这些数据远远足够了。文中附数据下载地址。

过去几年间，机器学习的发展已经推动了计算机视觉的快速进步：从系统自动为图片生成图说，再到能对分享的图片进行自然语言回复的APP。这些进步中，大多数都要归功于公共可用的图像数据集，比如用于监督学习的 ImageNet 和COCO，以及用于非监督学习的YFCC100M。

今天，我们发布了Open Images——一个包含了900万图像URL的数据集，值得一提的是，这些图像全部都是标签数据，标签种类超过6000种。我们尽量让数据集变得实用：数据集中所使用的标签类型比拥有1000个分类的ImageNet数据集更加贴近实际生活。对于想要从零开始训练一个深度神经网络的人来说，这些图片数据远远足够了。这些图片都拥有Creative Commons Attribution 许可。

这些图像水平的注释已经被自动地填入一个视觉模型，与谷歌云视觉API相似。在验证集中，我们使用人工评测，对这想自动标签进行检查，希望能找到并删除错误的标签。平均每一张图像又大约8个标签。以下是一些例子：

图中位子为图片的标签，比如，左图的标签有：阳台、楼梯、门面、铁、门、内部装修、大门、结构、手扶栏杆等等。

我们训练了一个Inception v3 模型，只使用Open Images的标注，这一模型已经足以被用于微调的应用以及其他一些地方，比如 DeepDream 或者 artistic style transfer ，这些应用都对过滤器的层级部署有较高要求。我们希望能在接下来的几个月中提升Open Images 中标注的质量，进而改进我们可以训练的模型质量。

这一数据集是谷歌、CMU和康奈尔大学联合研究的成果，现在，已经有大量基于Open Images 数据集的论文。我们希望Open Images 和最近发布的Youtube-8M 会成为机器学习社区有用的工具。

一些关键数据：