前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ECCV 2020 | 布法罗大学&快手提出基于Transformer的3D手势估计

ECCV 2020 | 布法罗大学&快手提出基于Transformer的3D手势估计

作者头像
Amusi
发布2020-09-23 17:07:03
1.1K0
发布2020-09-23 17:07:03
举报
文章被收录于专栏:CVerCVerCVer

本文转载自:将门创投 | 作者:黄麟、谈建超等

本文将分享来自布法罗大学黄麟以及快手西雅图实验室谈建超等人在ECCV的工作。由于3D手势本身高度非线性的动态特性以及关节点之间复杂的结构关联和依赖,使得3D手势估计问题至今难以完美解决。该团队以经典的序列转换模型Transformer为基础并采用非自回归结构化解码机制来帮助从3D点云中重建合理的3D手势。

由于3D手势本身高度非线性的动态特性以及关节点之间复杂的结构关联和依赖,使得3D手势估计问题至今难以完美解决。我们借鉴自然语言处理(NLP)中用于序列转换任务的编-解码器结构化建模框架,希望直接利用手势关节点之间的结构依赖辅助手势重建。

具体以经典的序列转换模型Transformer为基础并采用非自回归结构化解码机制来帮助从3D点云中重建合理的3D手势。在多个具有挑战性的手势数据集上验证了我们提出方法的有效性。

论文PDF链接:

https://cse.buffalo.edu/~jsyuan/papers/2020/4836.pdf

一、背景和动机

3D手势估计在这些年来,已经取得了巨大进展,成为计算机视觉中最重要的课题之一,然而由于手势本身复杂的变化,手指间的相似性,及其自遮挡属性等问题,要想获得精确而稳定的3D手势仍然具有挑战。

为了解决这些问题,我们认为针对3D手势估计类似的结构化输出学习任务,我们应当充分且更直接地将3D手势本身具有的内在结构信息,以及关节点之间的关联依赖信息作为重要线索以辅助手势估计,而此前的文章中大多没有针对这一重要信息直接建模。在我们的工作中,我们基于3D点云作为输入并与NLP中用于序列转换的编-解码器结构进行结合,采用了一种新的非自回归结构化建模方式以重建合理的3D手势关节点。

序列转换任务的编-解码器结构,具体采用的是对输入序列进行编码,并与解码器结合从而对输出进行自回归解码的架构。通过自回归建模的方式,我们不仅可以基于输入序列的信息,并且可以利用此前已经输出单词之间的关联信息,从而决定每一个输出单词。这也就意味着这种编码器-自回归解码器的结构可以直接利用目标序列的内在结构信息。在此基础上,最新的基于注意力机制的转换模型Transformer[1] 还进一步通过注意力机制以捕获输入和输出序列之间的全局相关性,从而提供与输出更重要相关的输入单词信息。基于以上机制,Transformer可以充分地利用结构化输出序列的内在结构信息及其与输入序列之间的关系,并在序列转换及诸多结构化输出学习的任务上取得了显著的性能提升,如针对序列翻译及图像描述问题,均能够生成语法和语义上有效的句子。

图1:从左到右依次是传统的自回归Transformer[1],非自回归Transformer[2],以及我们提出的带有结构化参考信息提取器的非自回归手势Transformer (NARHT)结构。

但是由于自回归本身过慢的解码速度,以及手势关节点彼此的关联没有特定的次序依赖关系。我们进一步借鉴了最近提出的非自回归Transformer [2] (如图1中),其为了达到并行加速序列转换的效果,移除了每个输出单词对于输出序列内在信息的依赖,但同时也因此牺牲了结果的精确度。从这些策略中汲取成功的经验,我们提出利用非自回归Transformer模型作为我们的基本模块,以进行可靠的3D手势估计。

为了能够效仿Transformer以充分利用手势的内在结构信息及其与输入点云信息之间的关系,同时达到并行加速的效果,我们提出以Transformer为基础框架,采用一种新的非自回归结构化学习机制来替代原始Transformer的自回归解码机制。为了向解码器提供必要的手势关节点之间的关联依赖信息,同时保持并行输出的机制,我们替换了Transformer将已经输出的单词作为解码器输入的做法,在Transformer的基础之上添加了一个结构化参考信息提取器,旨在提供完整的手势参考信息(如图1右)。通过将提取的手势参考信息传送给解码器,我们即可效仿Transformer以充分利用参考手势的内在结构信息并与编码器输出的点云特征相互关联从而生成合理的3D关节点。我们的3D手势估计过程可表示为:

图2:左图是我们提出的非自回归手势Transformer (NARHT)模型结构,主要由三个部分组成:

1. 编码器为输入点云的每个点

计算逐点特征

2. 结构化参考信息提取器生成参考手势并将其关节点特征

喂给解码器。

3. 解码器进一步对参考手势的内在结构信息进行建模,并将其与点云的特征信息

相关联,从而估计最终的关节点位置

右图是我们的非自回归结构化建模示意图,每个关节点位置均由参考手势提供的结构信息和重要的点云特征共同决定。图中的NJL1L2 分别是是输入点云个数,手势关节点的个数,以及编码器和解码器的层数。

二、方法梗概

本文方法的整体框架如图2所示。以Transformer作为基础框架,我们首先设计了一个结构化参考信息提取器进行参考手势的提取并传送给解码器,在解码器中我们首先采用自注意力机制以捕捉参考手势中不同关节点之间的关联依赖信息,并基于捕捉的信息进一步采用注意力机制与编码器输出的点云特征相关联从而找到对输出关节点而言重要的点云特征,我们将经过筛选的点云特征与参考手势的结构信息进行汇总,并通过前馈网络(FFN),获得解码器的输出。最终,解码器的输出会进一步通过全连接层(FC)以获得每个关节点坐标。

通过这种方式,我们的模型可以充分利用参考手势的内在结构信息及其与点云特征之间的关系,同时生成所有3D关节点的位置

。针对训练,我们基于真实关节点

与估计的关节点

,使用平方差损失函数。每个训练样本的损失函数可以定义为:

具体针对结构化参考信息提取器,我们以3D点云作为其输入从而生成参考手势的逐点特征

,然后将该参考信息输入到解码器,解码器捕获的参考手势的内在结构信息即可作为目标手势的内部结构信息的近似表示,并参与到后续解码过程中,从而获得精确的关节点位置。我们采用了中继监督以进行辅助,从而鼓励参考手势含有更多的真实手势信息。因此,我们采用了一个全连接层用于将参考手势的关节点特征回归得到关节点坐标

。第二个损失函数定义如下:

我们利用上述损失函数共同监督我们的NARHT模型的端到端学习过程,其可以表示为:

=10是用以平衡损失函数的权重系数。

三、实验结果

图3:我们的方法在3个手势数据集ICVL(第一行), MSRA(第二行), NYU(第三行)上的结果展示。

表1:我们的算法跟相关工作在三个数据集 ICVL(左), MSRA(中), NYU(右)上的效果对比。我们采用手势关节点的平均距离误差作为对比标准。

图4:我们的算法跟相关工作在三个数据集 ICVL(左), MSRA(中), NYU(右)上的效果对比。我们采用每个关节点的平均距离误差作为对比标准。

图5:我们的算法跟相关工作在三个数据集 ICVL(左), MSRA(中), NYU(右)上的效果对比。在每一个给定的门限下,我们以测试集中重建得好的帧数在总帧数里占的比例值作对比标准。

四、总结

本文中,我们将3D手势估计问题与NLP领域中的序列转换任务进行联系,以全面研究结构化输出的内在结构信息对精确估计3D手势的作用。遵循经典的Transformer框架和非自回归解码策略,我们可以根据关节点内部的关联依赖信息及重要的输入特征以决定每个3D关节点的位置。我们在多个具有挑战性的手势数据集上证明了模型的有效性。未来,我们计划探索更多的应用可能,以消除结构化输出学习任务在姿态估计和NLP领域之间的鸿沟,例如基于RGB图像的姿态估计问题和图像描述问题等等。

//

团队介绍:

本文近期已经被ECCV 2020接收。作者依次为:黄麟,谈建超,刘霁,袁浚菘。第一作者黄麟博士生和袁浚菘老师来自University at Buffalo。黄麟今年在快手西雅图实验室进行暑期实习,继续在这个方向上探索3D手势建模问题。刘霁老师和谈建超博士来自快手西雅图实验室。

参考文献:

[1] Vaswani, A.,Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L.,Polosukhin, I.: Attention is all you need. NIPS (2017).

[2] Gu, J., Bradbury,J., Xiong, C., Li, V.O., Socher, R.: Non-autoregressive neural machine translation. arXiv preprint arXiv:1711.02281 (2017).

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档