首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

专题好文|利用合成数据进行有效关联知识学习的研究

关联(Association)是多目标跟踪(MOT)的核心组件,旨在将同一身份的边界框在视频序列中进行连接。为了训练关联模块(例如参数化网络),通常使用真实的视频数据。然而,标注连续视频帧中的人物轨迹成本较高,且由于其缺乏灵活性,这种真实数据为我们评估系统在不同跟踪场景下的性能提供的机会有限。

来自澳大利亚国立大学与清华大学研究者们对3D合成数据是否可以取代现实世界视频进行关联训练进行了研究。具体而言,本文引入了一个名为MOTX的大规模合成数据引擎,将相机和物体的运动特性手动配置为与现实世界数据集相似。实验表明,与真实数据相比,从合成数据中获得的关联知识可以在无需域自适应技术的情况下在现实世界测试集上实现非常相似的性能。本文能得出这个有趣的观察结果,归功于两个因素:首先,3D引擎可以很好地模拟运动因子,如相机移动、相机视角和物体移动,从而让模拟视频可以提供具备有效运动特征的关联模块。其次,实验结果表明,外观域差距几乎不会对关联知识的学习造成损害。此外,MOTX的强大的自定义能力让我们能够定量评估运动因子对MOT的影响,从而为学界带来新的见解。研究成果已发表于MIR 2023年第二期专题中,全文开放获取!

图片来自Springer

全文下载:

A Study of Using Synthetic Data for Effective Association Knowledge Learning

Yuchi Liu, Zhongdao Wang, Xiangxin Zhou, Liang Zheng

https://link.springer.com/article/10.1007/s11633-022-1380-x

全文导读

多目标跟踪(MOT)是一个由检测、视觉表示和关联等多种功能组件组成的复合系统。关联是MOT过程的最终阶段,人们通常也将其看作核心问题,其目的是将边界框与现有的轨迹相连接。关联模块根据外观特征(如重新识别特征)、运动特征(如边界框的位置和大小)或这两个特征进行推断。

在学界,许多针对关联的解决方案的共同点是利用现实世界的视频数据进行训练。然而,这种做法存在几个潜在的问题:首先,对视频帧中的轨迹进行标注需要较高的人工成本,可能会限制MOT训练数据的规模。其次,在多行人跟踪等以人为中心的任务中使用现实数据会受到隐私和伦理问题的约束。

本文探讨了如何在MOT中利用合成数据来避免上述问题。文章构建了一个三维模拟引擎:MOTX,用于生成具有多个目标、大量标注和可控视觉因子的视频。这些数据提供了一种低成本方法,来获取具有准确标签的大规模数据。通过MOTX,本文试图回答两个有趣的问题。

第一个问题是,从合成数据中学到的关联知识是否适用于现实世界中的视频?合成数据的一个通病就是它与真实数据的分布差异,特别是在图像样式方面的分布差异。在“以外观为中心”的任务(例如重新识别和分割)中,为避免在现实世界测试环境中失败,用合成数据训练的模型还需要额外的训练技术,如在真实数据上进行微调或域自适应。然而,关联学习与外观学习在数据要求方面不同。根据现有的研究来看,运动线索在关联中起着重要作用。虽然引擎很难模拟逼真的外观图像,但是模拟运动线索(如遮挡)可能难度会小一些。外观模拟和关联场景模拟的一些样本结果如图1所示。

图1 模拟外观与模拟关联情景的对比

其次,运动因子如何影响关联知识学习?现有的数据集大多来自于现实世界,比如MOT15。虽然这些数据有助于模型训练,但由于这些数据是固定的,所以我们很难了解系统如何应对不断变化的视觉因子。比如,训练集中的行人密度如何影响模型准确度?静态摄像机训练模型是否能够在移动摄像机系统下得到有效利用?本文将利用MOTX强大的自定义能力,对这些有趣的研究方向进行一些初步探索。

因此,本文在两个方面做出了贡献。首先,最重要的是,本文证明了在几个最先进的关联模块上,从合成数据中学习到的关联知识可以很好地适应实际场景,而不会影响性能。具体来说,本文通过手动设置关键参数(如相机视角)来合成使用MOTX的数据集,以接近现实世界的训练集。然后,当最新的关联网络在此类合成视频上进行训练时,其跟踪精度与实际数据训练相比达到了类似甚至是更好的水平。本文对外观和运动特征的消融研究表明:1) 合成数据与真实数据之间的外观差异几乎不会影响关联知识的学习;2) 3D引擎可以很好地模拟关联场景中的运动线索。这些发现可能会增加合成数据的竞争力,并意味与“以外观为中心”的任务相比,MOT在利用合成数据时受益更大。这是一项非常早期的思考合成数据在MOT中的角色的研究。

其次,本文对与物体相关的因子和与相机相关的因子如何影响关联知识学习进行了实证研究。具体来说,本文研究了两组因子:1) 与行人相关的因子,如密度和移动速度;2) 与摄像机相关的因子,包括相机视角和相机移动状态。具体而言,本文提出使用 MOTX 引擎2,将运动因子抽象为系统参数,因此可以通过简单更改这些参数来模拟不同的场景,例如,将物体的速度设置为1米/秒。实验结果证明了训练和测试数据中的因子与MOT系统性能之间的关系。

全文下载:

A Study of Using Synthetic Data for Effective Association Knowledge Learning

Yuchi Liu, Zhongdao Wang, Xiangxin Zhou, Liang Zheng

https://link.springer.com/article/10.1007/s11633-022-1380-x

作者团队

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230509A06LMX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券