开发 | Google图片数据集发布最新 V3 版,涵盖600个对象类的标记边框

AI科技评论消息,日前,谷歌发布 Open Images Dataset (开发图片数据集)的 V3 版,比起今年7月份发布的 V2 版,这一最新版本的边框(bounding box)数和图像层级标签(image-level label)数都大大增加。

图: Open Images Dataset 中的标注图像

Open Images Dataset 包含900万张图片 URL,里面的图片都已经被标注,带有标签和边框,横跨成千上万个类。大家现在可以到 https://github.com/cvdfoundation/open-images-dataset 进行下载。

该数据集包括一个训练集(9,011,219张图像)、一个验证集(41,620张图像)和一个测试集(125,436张图像)。在 V2 版本中, V1 版本的验证集被分割成验证集和测试集,这是为了更易于评估。图像的标签和边框描述如下:

图像层级标签

下表是不同数据集中图像层级标签的概况,可以通过类似于 Google Cloud Vision API 的计算机视觉模型自动生成所有图片的图像层级标签。

验证集和测试集中的所有图像,以及训练集中的一部分图像都带有经过人工验证的图像层级标签。大部分的人工验证都已经在谷歌内部手工完成了,另外一小部分是通过在Image Labeler(Crowdsource app, g.co/imagelabeler)上进行众包验证来完成的。这种人工验证虽然可以消除掉错误信息,但却不能发现漏报情况,所以图像中可能会缺失某些标签。产生样本的模型不只是上面提到的自动生成标签的模型,还覆盖其他很多计算机视觉模型,所以类的数量大大增加了。

在数据集中,共有19,995个带有图像层级标签的不同的类,其中19,693个类中至少有一个经过人类验证的标签,7870个类中带有机器生成的标签。

边框

下表是在所有数据集中边框标记的概况,其中包括600个对象类。这个数量远远大于在 ILSVRC 和 COCO 挑战赛中涵盖的类,另外还增加了诸如 fedora 帽和雪人等新的对象。

Google 为验证集和测试集中的所有对象实例提供完整的边界框注释,这些都是在公司内部通过手工标记的。此外,他们还尽可能地尝试在语义层次(semantic hierarchy)上将边框标记得足够具体。

例如,汽车有两辆,一辆是儿童豪华轿车,一辆是货车。豪华轿车(limousine)和货车(van)被标记为limousine和van,而所有其他类型的汽车(car)被标记为汽车(car)。

此外,注解者还为每个边框标记了一组属性,例如指示对象是否被遮挡。验证集和测试集中的每个图像平均大约有5个边框。

Data Formats数据格式

数据原始码包含如下文件:

images.csv

在训练集、验证集和测试集中的每个子集中都会有这样的文件。这里面包含图片URL、OpenImage ID、标题、作者和许可信息:

ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title,\ OriginalSize,OriginalMD5,Thumbnail300KURL ... 000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,\ https://www.flickr.com/photos/brokentaco/5215831864,\ https://creativecommons.org/licenses/by/2.0/,\ "https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."\ 211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg ...

每个图片中都有一个惟一的64位指定 ID,在 CSV 文件中,它们显示成十六进制整数(用零填充),例如000060e3121c7305。

annotations-machine.csv

这是通过机器生成的图像层级标签(每个训练集、验证集和测试集中都有)。

ImageID,Source,LabelName,Confidence 000002b66c9c498e,machine,/m/05_4_,0.7 000002b66c9c498e,machine,/m/0krfg,0.7 000002b66c9c498e,machine,/m/01kcnl,0.5 000002b97e5471a0,machine,/m/05_5t0l,0.9 000002b97e5471a0,machine,/m/0cgh4,0.8 000002b97e5471a0,machine,/m/0dx1j,0.8 000002b97e5471a0,machine,/m/039jbq,0.8 000002b97e5471a0,machine,/m/03nfmq,0.8 000002b97e5471a0,machine,/m/03jm5,0.7 ...

这些是通过与 Google Cloud Vision API 类似的计算机视觉模型生成的。

annotations-human.csv

这是通过人工验证的图像层级标签(每个训练集、验证集和测试集中都有)。

ImageID,Source,LabelName,Confidence 000026e7ee790996,verification,/m/04hgtk,0 000026e7ee790996,verification,/m/07j7r,1 000026e7ee790996,crowdsource-verification,/m/01bqvp,1 000026e7ee790996,crowdsource-verification,/m/0csby,1 000026e7ee790996,verification,/m/01_m7,0 000026e7ee790996,verification,/m/01cbzq,1 000026e7ee790996,verification,/m/01czv3,0 000026e7ee790996,verification,/m/01v4jb,0 000026e7ee790996,verification,/m/03d1rd,0 ...

这些源代码指示了标签是如何生成的:

  • "verification"是人工验证的图像层级标签。
  • "crowdsource-verification"是通过Crowdsource(众包) APP进行人工验证的标签。

annotations-human-bbox.csv

这是有边框坐标的人工标签(每个训练集、验证集和测试集中都有)

训练集标签和边框坐标如下所示:

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax 000002b66c9c498e,activemil,/m/0284d,1,0.560250,0.951487,0.696401,1.000000 000002b66c9c498e,activemil,/m/052lwg6,1,0.543036,0.907668,0.699531,0.995305 000002b66c9c498e,activemil,/m/0fszt,1,0.510172,0.979656,0.641628,0.987480 000002b66c9c498e,verification,/m/01mzpv,1,0.018750,0.098438,0.767187,0.892187 000002b66c9c498e,xclick,/m/01g317,1,0.012520,0.195618,0.148670,0.588419 000002b66c9c498e,xclick,/m/0284d,1,0.528951,0.924883,0.676056,0.965571 000002b66c9c498e,xclick,/m/02wbm,1,0.530516,0.923318,0.668232,0.976526 000002b66c9c498e,xclick,/m/052lwg6,1,0.516432,0.928012,0.651017,0.985915 000002b66c9c498e,xclick,/m/0fszt,1,0.525822,0.920188,0.669797,0.971831 ...

验证集和测试集的额外属性也给出来了:

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside 000026e7ee790996,freeform,/m/07j7r,1,0.071905,0.145346,0.206591,0.391306,0,1,1,0,0 000026e7ee790996,freeform,/m/07j7r,1,0.439756,0.572466,0.264153,0.435122,0,1,1,0,0 000026e7ee790996,freeform,/m/07j7r,1,0.668455,1.000000,0.000000,0.552825,0,1,1,0,0 000062a39995e348,freeform,/m/015p6,1,0.205719,0.849912,0.154144,1.000000,0,0,0,0,0 000062a39995e348,freeform,/m/05s2s,1,0.137133,0.377634,0.000000,0.884185,1,1,0,0,0 0000c64e1253d68f,freeform,/m/07yv9,1,0.000000,0.973850,0.000000,0.043342,0,1,1,0,0 0000c64e1253d68f,freeform,/m/0k4j,1,0.000000,0.513534,0.321356,0.689661,0,1,0,0,0 0000c64e1253d68f,freeform,/m/0k4j,1,0.016515,0.268228,0.299368,0.462906,1,0,0,0,0 0000c64e1253d68f,freeform,/m/0k4j,1,0.481498,0.904376,0.232029,0.489017,1,0,0,0,0 class-descriptions.csv

通过查阅class-descriptions.csv,可以将标签的MID转换成相关短描述

... /m/025dyy,Box /m/025f_6,Dussehra /m/025fh,Professor x /m/025fnn,Savannah Sparrow /m/025fsf,Stapler /m/025gg7,Jaguar x-type /m/02_5h,Figure skating /m/025_h00,Solid-state drive /m/025_h88,White tailed prairie dog /m/025_hbp,Mercury monterey /m/025h_m,Yellow rumped Warbler /m/025khl,Spätzle ...

需要注意逗号、引号等,该文件格式遵循标准的CSV格式,示例如下:

/m/02wvth,"Fiat 500 ""topolino""" /m/03gtp5,Lamb's quarters /m/03hgsf0,"Lemon, lime and bitters"

classes.txt

这是19,995个图像层级类的清单

/m/0100nhbf /m/0104x9kv /m/0105jzwx /m/0105ld7g /m/0105lxy5 /m/0105n86x /m/0105ts35 /m/0108_09c /m/01_097 /m/010dmf ...

classes-trainable.txt

这是5000个可训练的图像层级类的清单

classes-bbox.txt

这是600个边框层级类的清单

classes-bbox-trainable.txt

这是545个可训练边框层级类的清单

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏开源FPGA

基于FPGA的均值滤波算法实现

  我们为了实现动态图像的滤波算法,用串口发送图像数据到FPGA开发板,经FPGA进行图像处理算法后,动态显示到VGA显示屏上,前面我们把硬件平台已经搭建完成了...

2385
来自专栏企鹅号快讯

不用@微信官方了,Python20行自动戴帽!

这两天被朋友圈里@微信官方要求戴帽的消息刷屏了,会玩的都悄咪咪地用美图秀秀一类的app给自己头像p一顶然后可高兴地表示“哎呀好神奇hhhh”,呆萌的当然就一直等...

1987
来自专栏人工智能LeadAI

Python实现动态图的解析、合成与倒放

动态图现在已经融入了我们的日常网络生活,大大丰富了我们的表达方式和交流趣味性。常常是一言不合就放动图,我这里就不举例子了。咱们直接开始本文的内容。

1012
来自专栏大数据杂谈

【Excel系列】Excel数据分析:数据整理

1. 直方图的功能 “直方图”分析工具可计算数据单元格区域和数据接收区间的单个和累积频率。此工具可用于统计数据集中某个数值出现的次数,其功能基本上相当于函数FR...

2297
来自专栏新工科课程建设探讨——以能源与动力工程专业为例

3.3 绘制曲线

如何通过HTML5绘制曲线呢?可以百度搜索chart.js查看各类曲线绘制方法。此处我们介绍百度开源程序echarts绘制曲线。打开网页http://echar...

1390
来自专栏phodal

【工具推荐】图像界的魔术师 ImageMagick

如果说 Pandoc 里文档界的瑞士军刀,那么 ImageMagick 就是图形界的瑞士军刀。 上周在为 Growth 制作插图的时候,需要:1. 合并不同的图...

2686
来自专栏xingoo, 一个梦想做发明家的程序员

吴恩达机器学习笔记 —— 19 应用举例:照片OCR(光学字符识别)

我们定义几个固定大小尺寸的窗口,从照片的左上角开始扫描。扫描出来的图像做二分类,判断是北京还是人物(文字)。然后根据图像处理的一些惯用手段做二值化、膨胀,使得文...

990
来自专栏数据小魔方

sparklines迷你图系列18——ScatterChart

今天跟大家分享sparklines迷你图系列17——ScatterChart。 ScatterChart是日常使用频率非常频繁的图表——条形图。 在迷你图插件的...

2504
来自专栏鸿的学习笔记

在hadoop2.0上实现深度学习

我承认我又偷懒了,只是大概写了下提纲,和完成了第一章节的部分写作。不睡午觉的恶果啊,原本已经写好草稿,讲讲语言和信息的关系,结果,实在是回家后好困。

792
来自专栏生信小驿站

Python数据处理从零开始----第四章(可视化)(4)目录正文

有时候需要展示连续变量的误差,matplotlib通过plt.plot和plt.fill_between来实现。下面通过Scikit-Learn程序库的API里...

471

扫码关注云+社区