前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICCV 2019 | 变形曲面如何跟踪?亮风台公布最新算法

ICCV 2019 | 变形曲面如何跟踪?亮风台公布最新算法

作者头像
AI科技评论
发布2019-09-12 15:24:56
1.1K0
发布2019-09-12 15:24:56
举报
文章被收录于专栏:AI科技评论

ICCV 由IEEE 主办,每两年召开一次,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。据了解,今年一共收到4328篇投稿,与上一届 2143 篇相比,数量超出一倍,“竞争”激烈。10 月 27 日 - 11 月 2 日,ICCV 2019 将在韩国首尔举行。

作者:亮风台

编辑:唐里

ICCV 2019接收论文结果已经公布,来自全世界各地院校、研究机构、企业等,共有1077篇计算机视觉相关领域新成果入选。AR公司亮风台基于图形匹配的可变形表面跟踪算法被选为大会论文。新算法提出了一种基于图的方法,能够充分探索可变形表面的结构信息,以提高跟踪性能。

新成果主要论述可变形表面的单目图像跟踪的问题,具体而言,亮风台团队提出了一种新颖的基于图的方法,能够充分探索可变形表面的结构信息,以提高跟踪性能和效率。所提出的方法通过图结构之间的成对投影误差解决了特征对应和形状恢复问题,并采用软匹配松弛来提高计算效率。与现存先进算法进行广泛比较,实验结果表明,新方法可以对不同类型纹理的曲面实现稳健的跟踪结果,并且在跟踪精度和计算效率方面一般优于其他算法。

新提出的基于图的可形变表面目标的跟踪算法,主要贡献在三个方面:

1. 通过软匹配松弛和精心设计的候选匹配滤波策略,将图模型和图匹配引入到可变形表面跟踪中;

2. 设计统一的优化框架,探索局部外观,空间关系和变形模型的全部信息,以获得准确的形状重建;

3. 构造了一个带有注释的新的真实世界数据集,用于在不同类型的纹理的情景中评估可变形表面跟踪算法。

以下为论文的详解:

1. 综述

本文解决了跟踪具有已知初始 3D 形状(即模板)的通用可变形表面目标以及在单眼透视投影下在视频序列中恢复其3D形状的问题。模板可以被提前手动提供,或者使用从运动中恢复形状的方法从视频序列的数帧中计算模板。

与通常分别处理特征对应关系,去除异常值和形状重建的传统方法不同,我们将这些过程集成到一个统一的基于图的框架中,并提出迭代地解决求解对应关系和求解变形的优化问题。考虑到计算效率,我们将传统图匹配问题中的强匹配约束放宽到松匹配约束。这种松匹配约束使我们能够保持更多匹配细节,从而产生更精确的形状,并且通过在软匹配约束下开发的新颖匹配算法也极大地提高了计算效率。伴随着精心设计的候选匹配过滤策略,我们的基于图形的方法能够在几秒内处理数千个点,这比传统的基于图形的算法快得多。

为了进行全面评估,我们将我们的方法与几个最近提出的方法在两个数据集上进行比较:一个是提供的跟踪存在遮挡的表面(TSO)基准,包括存在目标被遮挡现象的两个视频序列,另一个是新收集的数据集,包括使用不同表面在显著形变的条件下记录的11个视频序列,其中这些目标具有丰富,不明显或重复的纹理。实验结果表明,我们的方法可以为所有视频序列提供最佳或近乎最佳的跟踪结果。在计算效率方面,我们的方法在两个数据集上的表现也通常优于参与比较的算法。

2. 本文的方法

我们用三角化的网格表示已知的模板形

,这个网格通过Nv点

组成,这些点又由 Ne 个边组成的边集

所连接。我们将相机参考帧(初始模板)中描述的点压入一个向量

中。已知模板通过未知的 3D 连续可微的形变 ψ 和未知的形变后的形状S相关联,也就是说 ψ 将

中的一个点映射到S中。类似的,我们可以用 Nv 个有着未知的3D坐标的点 vi 来表示形状 S ,并将这些点压入向量

中,这个向量在我们的算法中是需要求解的。我们假设相机已经过校准,具有已知的内在和外在参数。也就是说,我们有一个已知的映射函数

将每个 3D 网格中的点映射成 2D 图像的点。

分别是从参考图像中和输入图像中提取出来的特征集。为了简便,对于每个特征点

(以及

),我们还使用相同的符号表示其在2D图像中的齐次坐标。由于参考图像的 3D 表面是已知的,对每个特征点

我们能够计算出它的 3D 网点

和P两个点集中的点的对应关系由矩阵

表示,矩阵中每个元素

表示

匹配的概率。请注意,我们在此使用软对应关系而不是先前方法中通常采用的硬对应关系。软对应关系使我们能够保持更多的对应细节,从而提高恢复的3D形状的准确性。 它带来的另一个好处在于随后的二次规划问题通过丢弃离散约束变得更容易来解决。

通过同时求解和来最小化cost函数ε(C,ψ)可以得到被重建的最优的形状:

其中

代表mxn的全零矩阵,

代表n个1组成的列向量,

分别是针对每个元素的大于和小于,

表示点

和点

之间的测地距离的约束。在对应关系C上的约束保证了每个点最多只能参与一次匹配。而对形 ψ 的约束是不可扩展约束,为的是防止相邻点之间的欧几里得距离超过界限。

在先前的方法中,cost函数 ε(C,ψ) 经常被定义成 ψ 形变下所有对应关系

的累积误差。在本文中,我们提出了一种基于图的度量,它将图形结构之间的投影误差组合为

其d(ψ,i,j,a,b)是度量在形 ψ 下边

和边

之间的一致性。我们定义d为外观一致性函数

和几何一致性函数

的组合,各个函数为:

其中

分别是特征点

的光度描述符,并α∈[0,1]控制着局部特征和用来重建形状的图结构之间的平衡。

为了简洁,我们可以对公式(2)用一种点对相容性的方式表述:

其中

是矩阵的向量形式,

是对应的affinity矩阵:

其中(i,a)代表在参考图像中的点

与输入图像中的点

组成的一个候选匹配,ind(·)是将点对应关系映射到一个整数索引的双射函数。注意,κ被选择为足够大以确K(ψ)是非正的,其目的是避免由于没有对应关系被激活而求解出的平凡解。

为了在变形 ψ 下过滤具有较大投影误差的离群匹配,我们通过投影误差项来惩罚匹配点,投影误差随着匹配点的增加而增加

其λ>0自适应地控制拒绝离群值的程度,

将每个点匹配的一元投影误差编码为:

3. 优化求解

对于新来的一帧,我们首先用先前帧的求解结果来预测和,然后再通过交替固定两者中的一项来优化另一项。这个优化过程迭代进行直到收敛或者达到算法的最大迭代次数。

3.1. 对应关系的优化求解

给定形 ψ ,问题(1)被简化为按下式求解最优对应关系:

其中

是一对一匹配约束。

通过删除离散约束并添加惩罚项,问题(8)可以视为松弛图匹配问题。虽然一些用于解决传统的图匹配问题的幂迭代算法可以很容易地被拓展来解决软对应关系,但是对于我们来说,这些拓展后的算法由于惩罚项的存在也很难应用在问题(8)上。在这一节,我们提出了一种基于Frank-Wolfe算法的方法来相对于对应关系来最小化问题(8),这个算法被描述在Algorithm 1 中。

3.2. 形变模型的优化求解

给定一个对应关系c,(也就是对应矩阵C),问题(1)可以简化成按下列公式求解最优形变:

我们按照下式放松问题(9)的第一项:

因此问题(9)被放松为一个线性拟合问题:

其中

是每一个样本的权重。

如[22]中所述,这个问题可以进一步重新表述为一个相对于网格顶点坐标的条件良好的线性系统:

其中M是一个系数矩阵,A是正则化矩阵,r是标量系数,用于定义我们对解决方案的规范程度。

4. 实验

4.1. 新收集的数据集

最近,几个数据集被提供来用于评估可变形表面目标的跟踪。但是,它们中的大多数缺少带注释的真实结果(groundtruth)网格顶点。而且,这些数据集是使用非常有限的表面类型的目标收集的,不足以评估可变形表面目标跟踪算法的有效性。

为了全面评估所提出的算法与基准算法的比较,我们创建了一个新的数据集用于可变形表面跟踪,称为可变形表面跟踪(DeSurT)。使用Kinect相机收集此数据集,以评估各种变形和不同光照条件下的跟踪性能。它包含11个视频流和3,361个帧,显示几种不同类型表面的各种变形,包括七种不同内容的打印图像(分别是校园,砖,布,鹅卵石,景色,石头和日落),两个报纸和两个靠垫。

如图所示,这些表面大致分为三类:(1)纹理良好的表面,包括校园,鹅卵石,景色,报纸1,报纸2和坐垫1;(2)重复纹理表面,包括砖,布和垫子2;(3)弱纹理表面,包括石头和日落。

为了评估重建精度,我们使用Kinect点云来构建真实网格,并计算从重建网格到真实网格中顶点到顶点的平均距离。因此,除了每个帧的深度信息之外,所有视频都在每帧中有手动标注的真实网格顶点(打印图片和报纸中使用130个顶点标注,坐垫用121个顶点标注)。

为了测试所提出的算法对遮挡的鲁棒性,我们还报告了算法在公共数据集(跟踪具有遮挡的表面(TSO)上的跟踪结果,这个数据集包括两个分别有着纹理良好和纹理不良的可变形表面目标的视频流,总共394个帧,并且数据集中存在人为和现实的遮挡。

4.2 结果比较与分析

在本节中,我们报告了所提算法与几种最先进的基线算法的比较结果,包括DIR,LM和LLS:

LM采用SIFT匹配进行特征对应,然后进行迭代异常值拒绝步骤,然后通过求解线性系统重建形状,该线性系统是使用扩展的拉普拉斯形式从退化的线性系统转换而来。

LLS仅关注形状重建步骤,并将关键点对应关系作为输入。在我们的实验中,我们(在异常值拒绝之后)使用从LM派生的关键点对应作为LLS的输入。

DIR是一种基于像素的方法,采用密集模板对齐进行形状重建。它在很大程度上取决于形状的初始估计,我们将其初始化为上一帧的解。

对于我们的算法,我们固α=0.7,并分别公布了N=1000和N=2000两组实验结果。

表1. 平均跟踪误差(mm)

表2. 平均计算时间(s)

如表1所示,我们的算法对于具有丰富,弱或重复纹理的不同类型的表面是鲁棒的,并且即使在从每个表面提取相对较少的关键点(N=1000)以构建对应关系时也显着地优于所有基线算法。对于遮挡表面(TSO数据集),DIR在精心设计的遮挡检测策略的帮助下实现了最佳跟踪结果。有趣的是,在没有任何指定的遮挡表面过程的情况下,我们的算法在TSO数据集上达到了与DIR相当的结果,并且一般优于LM和LLS。当我们将N上升到2000时,我们的算法的跟踪精度在两个数据集上都得到了显着的改善。

考虑到计算时间(表2),DIR在两个数据集上都是最耗时的。我们的算法在N=1000时在两个数据集上击败其他算法。当我们将关键点的数量增加到2000时,我们的算法在TSO数据集上仍然是最有效的,但在我们提出的DeSurT数据集上比LM慢。

图3至图6表明了由被比较算法提供的各种类型表面跟踪的几个代表性样本。对于结构良好的表面(图3),所有算法都能够提供合理的跟踪结果,但我们的算法可以更好地处理细节。如图4和图5所示,所有比较的基线算法都受到弱纹理和重复纹理化表面的影响,但我们的算法能够在帧间提供准确的跟踪结果。此外,我们的算法以及DIR对于遮挡是稳健的(图6),而LM和LLS在存在一定程度的遮挡时可能无法跟踪到对象。

此外,亮风台也在通过“开放”、“开源”,和所有AR人一起推进技术的进步,曾发布了一系列AR相关的开源算法:包括图匹配算法(PAMI 2018a),2D AR跟踪算法(PAMI 2018b),投影补偿算法(CVPR 2019),单目标跟踪算法(ICCV 2017)等等。

并参与创建发布了三个重要的视觉跟踪评测集,TC-128,POT-210,LaSOT。其中TC-128是国际上第一个彩色跟踪评测集,POT-128是目前国际上最大的AR跟踪数据评测集,LaSOT是目前国际上最大的单目标跟踪评测集。这三个数据集的发布对于AR以及相关领域的研究起到了重要的推进作用,已经被广泛使用。

论文详情:

原文链接: https://www3.cs.stonybrook.edu/~hling/publication/deformable%20surface-19.pdf

数据集: https://www3.cs.stonybrook.edu/~hling/data/DeSurT.rar(~2G)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档