首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Open Images V6—现在具有本地化叙事

Open Images在许多方面是最大的带注释的图像数据集,用于训练最新的深度卷积神经网络以执行计算机视觉任务。随着去年 5 月版本 5的推出,Open Images 数据集包括 900 万张用 3600 万个图像级标签标注的图像、1580 万个边界框、280 万个实例分割和 39.1 万个视觉关系。连同数据集本身,相关的开放图像挑战促进了对象检测、实例分割和视觉关系检测的最新进展。

今天,我们很高兴地宣布Open Images V6的发布,它极大地扩展了 Open Images 数据集的注释,提供了大量新的视觉关系(例如,“狗抓飞盘”)、人类动作注释(例如, “woman jumping”)和图像级标签(例如,“paisley”)。值得注意的是,此版本还添加了本地化叙述,这是一种全新的多模态注释形式,由所描述对象上的同步语音、文本和鼠标轨迹组成。在 Open Images V6 中,这些本地化的叙述可用于 500k 的图像。此外,为了便于与之前的作品进行比较,我们还发布了COCO 数据集的完整 123k 图像的本地化叙事注释。

本地化叙事 本地化叙事

背后的动机之一是研究和利用视觉和语言之间的联系,通常通过图像字幕来完成——图像与其内容的人工文字描述配对。然而,图像字幕的局限性之一是缺乏视觉基础,即文本描述中单词图像的定位。为了减轻这种情况,以前的一些作品对描述中出现的名词进行了后验绘制。相比之下,在本地化叙事中,文本描述中的每个单词都是有根据的。

本地化叙述由注释者生成,他们提供图像的口头描述,同时将鼠标移动到他们正在描述的区域上。语音注释是我们方法的核心,因为它直接将描述与其所引用的图像区域联系起来。为了使描述更易于访问,注释者手动转录了他们的描述,然后将其与自动语音转录结果对齐。这将恢复描述的时间戳,确保三种模式(语音、文本和鼠标轨迹)正确且同步。

同时说话和指点非常直观,这使我们能够向注释者提供有关任务的非常模糊的指示。这为研究人们如何描述图像创造了潜在的研究途径。例如,我们在指示对象的空间范围时观察到不同的样式——圆圈、划痕、下划线等——这些研究可以为新用户界面的设计带来有价值的见解。

为了了解这些本地化叙事所代表的额外数据量,鼠标轨迹的总长度约为 6400 公里,如果不停地大声朗读,所有的叙事将需要大约 1.5 年的时间!

新的视觉关系、人类行为和图像级注释

除了本地化的叙述之外,在 Open Images V6 中,我们将视觉关系注释的类型增加了一个数量级(高达 1.4k),例如添加了“男人骑滑板”、“男女手牵手”、“狗抓飞盘”。

自计算机视觉诞生以来,图像中的人一直是计算机视觉兴趣的核心,了解这些人在做什么对于许多应用程序至关重要。这就是为什么 Open Images V6 还包含 250 万条人类执行独立动作的注释,例如“跳跃”、“微笑”或“躺下”。

最后,我们还添加了 2350 万个新的经过人工验证的图像级标签,在近 20,000 个类别中总共达到了 5990 万个。

结论

Open Images V6 是改进图像分类、对象检测、视觉关系检测和实例分割的统一注释的重要定性和定量步骤,并采用了一种将视觉和语言与本地化叙事联系起来的新方法。我们希望 Open Images V6 将进一步推动实现真正的场景理解。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220107A0C3AA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券