前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA

CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA

作者头像
代码医生工作室
发布2020-06-01 16:48:09
8610
发布2020-06-01 16:48:09
举报
文章被收录于专栏:相约机器人相约机器人

新智元推荐

编辑:白峰

【新智元导读】上海交大、三菱电机实验室联合提出将人体骨架建模为一个可学习的多尺度图,并且对不同层次的特征,多尺度图呈现动态变化。通过学习综合的多尺度特征表达,DMGNN实现了更准确的未来运动预测,超越SOTA。

现有的基于3D人体骨架的运动预测方法往往不考虑身体不同部位之间的关联关系,或是仅考虑单一尺度的关节点关系。

然而,很多时候是一组关节一起运动,抽象地表达动作的整体特征;相反,如果过度关注细节的关节,模型的整体性能也容易被复杂的运动影响。这种新的动态多尺度图神经网络(DMGNN),实现了更精准的运动预测。

动态多尺度图建模3D人体骨架

基于3D人体骨架的运动预测目的是基于观测的人体骨架运动序列生成未来的姿态,被广泛应用于众多领域如人机交互、自动驾驶和行人跟踪等。

现有方法通常无法显式地挖掘不同身体部位之间的关系或约束,或者仅构建了单一尺度下关节点之间的关系,却不足以反应一组运动的关节,例如,在行走中,包含多个关节的上肢和下肢之间的交互运动至关重要,不应该过度关注手指和脚趾。

行走

拍照

买东西

本文提出一种多尺度图用来描述不同尺度下的人体部位和人体结构。每个多尺度图包含两个子图:单尺度图和跨尺度图。

单尺度图逐步抽象人体骨骼;跨尺度图连接相邻的两个单尺度图。多尺度图是可训练的,并且在不同的网络层中呈现动态变化,可灵活的表达不同层级的身体部位之间的关联关系。

基于多尺度图,作者提出动态多尺度图神经网络(DMGNN),其整体框架为一个编码器-解码器结构,分别用于提取运动特征和生成未来姿态。

编码器的核心是一系列基本组分「多尺度图计算单元」(MGCU),解码器核心是「基于图的门控循环单元」(G-GRU)。

基于动态多尺度图的运动预测算法

动态多尺度图

为了建模人体中综合的关联关系,作者提出建立多尺度图,其中图的节点是不同尺度下的身体部位,边为身体部位之前的关系。

多尺度图包含两个子图:单尺度图和跨尺度图,其中单尺度图用于描述单个尺度中的人体内部关联,而跨尺度图连接了不同 的单尺度图,描述了不同尺度中的身体部位的相互作用。

例如,在粗尺度中的「上肢」节点可与细尺度中的「手」和「肘」建立连接。基于人类先验,多尺度图由一种预定义的物理性质的连接作为初始化,在模型的训练过程中被自适应地调整;针对网络不同层中的人体特征,多尺度图呈现动态变化,灵活地描述不同层级中的人体表达。

模型框架

动态图神经网络包含一个编码器和一个解码器,其中编码器内部包含串联的的动态多尺度图计算单元(MGCU),用来逐层地提取人体运动的多尺度特征。每个MGCU包含多个单尺度图卷积块(SS-GCB)和跨尺度融合模块(CS-FB)

其中SS-GCB利用单尺度图的空间图卷积以及时间卷积提取单个尺度中运动的时空特征;CS-FB通过两个相邻尺度中的特征表达,学习两个尺度中不同身体部位之间的关联关系,以构建跨尺度图,并实现两个尺度中特征的交替融合。

解码器中包含了基于图的门控循环单元(G-GRU),可以利用图卷积增强动作隐含特征中的信息传播,以更准确地生成未来姿态。

此外,本文还提出了差分算子,用来获取运动的速度、加速度等高阶特征,有效地辅助运动预测。

目标函数

DMGNN通过L1 loss进行训练,原因主要是相比于L2 loss,L1 loss在loss小的情况下保持足够大的梯度,在loss大的情况下降低了梯度爆炸的情况,可训练模型生成更准确的预测。

Human3.6M和CMU Mocap数据集验证效果超SOTA

作者在Human3.6M和CMU Mocap两个数据集上进行了实验,通过计算预测结果与真实序列之间的平均角度误差进行定量评价,通过展示生成样本进行定性评价。

Human3.6实验结果

在短期预测中,可以超过绝大多数state-of-the-art方法。在长期预测中,DMGNN可达到十分具有竞争力的表现。

CMU Mocap实验结果

在短期和长期预测中,DMGNN均可超过大多数state-of-the-art方法。

实验结果可视化

通过生成样本可视化,可以看出,相比于众多前人工作,DMGNN可以生成准确且合理的未来动作;而其他方法,容易在短期或长期出现较大的误差或偏移。

消融实验

通过改变不同的身体尺度,可以发现:

1)当利用3个尺度时,模型的表达效果最优;

2)当尺度过少时,模型没有足够的抽象能力,无法准确把握动作的整体特征,故表达效果不够强;

3)当尺度过多时,模型引入了过多抽象的特征表达,而动作预测本身对抽象和精度的要求都很高,过于粗化的特征反而影响了模型的预测能力。

通过定量和定性的实验分析,本文证明了DMGNN对比state-of-the-art方法,可以实现准确且合理的短期或长期人体运动预测。

本文作者:Maosen Li, Siheng Chen, Ya Zhang等

论文地址:https://arxiv.org/abs/2003.08802

项目地址:https://github.com/limaosen0/DMGNN(待完善)

视频链接:https://www.bilibili.com/video/BV1hf4y1U7Ri

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】上海交大、三菱电机实验室联合提出将人体骨架建模为一个可学习的多尺度图,并且对不同层次的特征,多尺度图呈现动态变化。通过学习综合的多尺度特征表达,DMGNN实现了更准确的未来运动预测,超越SOTA。
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档