Open Images V6—现在具有本地化叙事

文章来源：企鹅号 - 雨夜的博客

Open Images在许多方面是最大的带注释的图像数据集，用于训练最新的深度卷积神经网络以执行计算机视觉任务。随着去年 5 月版本 5的推出，Open Images 数据集包括 900 万张用 3600 万个图像级标签标注的图像、1580 万个边界框、280 万个实例分割和 39.1 万个视觉关系。连同数据集本身，相关的开放图像挑战促进了对象检测、实例分割和视觉关系检测的最新进展。

今天，我们很高兴地宣布Open Images V6的发布，它极大地扩展了 Open Images 数据集的注释，提供了大量新的视觉关系（例如，“狗抓飞盘”）、人类动作注释（例如， “woman jumping”）和图像级标签（例如，“paisley”）。值得注意的是，此版本还添加了本地化叙述，这是一种全新的多模态注释形式，由所描述对象上的同步语音、文本和鼠标轨迹组成。在 Open Images V6 中，这些本地化的叙述可用于 500k 的图像。此外，为了便于与之前的作品进行比较，我们还发布了COCO 数据集的完整 123k 图像的本地化叙事注释。

本地化叙事本地化叙事

背后的动机之一是研究和利用视觉和语言之间的联系，通常通过图像字幕来完成——图像与其内容的人工文字描述配对。然而，图像字幕的局限性之一是缺乏视觉基础，即文本描述中单词图像的定位。为了减轻这种情况，以前的一些作品对描述中出现的名词进行了后验绘制。相比之下，在本地化叙事中，文本描述中的每个单词都是有根据的。

本地化叙述由注释者生成，他们提供图像的口头描述，同时将鼠标移动到他们正在描述的区域上。语音注释是我们方法的核心，因为它直接将描述与其所引用的图像区域联系起来。为了使描述更易于访问，注释者手动转录了他们的描述，然后将其与自动语音转录结果对齐。这将恢复描述的时间戳，确保三种模式（语音、文本和鼠标轨迹）正确且同步。

同时说话和指点非常直观，这使我们能够向注释者提供有关任务的非常模糊的指示。这为研究人们如何描述图像创造了潜在的研究途径。例如，我们在指示对象的空间范围时观察到不同的样式——圆圈、划痕、下划线等——这些研究可以为新用户界面的设计带来有价值的见解。

为了了解这些本地化叙事所代表的额外数据量，鼠标轨迹的总长度约为 6400 公里，如果不停地大声朗读，所有的叙事将需要大约 1.5 年的时间！

新的视觉关系、人类行为和图像级注释

除了本地化的叙述之外，在 Open Images V6 中，我们将视觉关系注释的类型增加了一个数量级（高达 1.4k），例如添加了“男人骑滑板”、“男女手牵手”、“狗抓飞盘”。

自计算机视觉诞生以来，图像中的人一直是计算机视觉兴趣的核心，了解这些人在做什么对于许多应用程序至关重要。这就是为什么 Open Images V6 还包含 250 万条人类执行独立动作的注释，例如“跳跃”、“微笑”或“躺下”。

最后，我们还添加了 2350 万个新的经过人工验证的图像级标签，在近 20,000 个类别中总共达到了 5990 万个。

结论

Open Images V6 是改进图像分类、对象检测、视觉关系检测和实例分割的统一注释的重要定性和定量步骤，并采用了一种将视觉和语言与本地化叙事联系起来的新方法。我们希望 Open Images V6 将进一步推动实现真正的场景理解。

发表于: 2022-01-072022-01-07 21:18:29
原文链接：https://kuaibao.qq.com/s/20220107A0C3AA00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Open Images V6—现在具有本地化叙事

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐