“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
论文题目:
SynSP:Synergy of Smoothness and Precision in Pose Sequences Refinement
论文链接:
https://github.com/InvertedForest/SynSP/blob/main/main.pdf
利用现有的人体姿态估计算法估计人体姿态序列往往会遇到各种误差。人体运动优化算法旨在优化来自姿态估计算法的人体姿态序列,同时确保最小的计算开销和延迟。之前的研究主要集中在两个任务目标之间的平衡,即平滑和精度,然而我们注意到,这两个目标之间的紧张关系可以提供关于预测姿态序列的额外置信度线索。反过来,这些提示能够帮助网络优化低质量的人体姿态。为了利用这种质量信息,本文提出一种运动优化网络SynSP,在人体运动序列优化任务中实现平滑和精度的协同。
下面我们具体探究两个任务目标(平滑和精度)与置信度之间的关系。一个人体运动优化算法有两个loss:精度loss_p和加速度loss_a,分别用于监督人体姿态关节点位置和关节点加速度,所以我们可以通过调整这两个loss的权重比例来使得网络侧重精度或者平滑。
阐述
图一:动机
图一(a)的横坐标就代表了这一loss权重比例,纵坐标分别是MPJPE error(精度误差)和Accel error(加速度误差),那么在横坐标为0.5和5的两个位置,网络的输出就分别侧重平滑和精度。此时,我们可以获得这两个输出的差值,即图一(b)的蓝色线条Diff2。我们同时可以得到估计人体姿态序列与真实序列的差值,即Diff1,代表真实的输入误差,可见Diff1和Diff2有一定的相关性。
我们在Human3.6M和3DPW数据集上计算了Diff1和Diff2之间的Pearson相关系数。基于我们的实验,Pearson相关系数的均值为0.48(大于0.3视为相关),说明两个有不同侧重的输出序列之间的差值(Diff2)可以在不知道真实值的情况下作为预测序列质量的指标。
我们使用了transformer结构来处理时序序列信息,主要由两个阶段:Base Stage和Refinement Stage组成,首先,在Pose Similarity Encoding I的指导下,Base Decoder可以同时利用个体信息和全局信息生成两个分支,分别偏向于平滑和精度;接下来,这两个分支可以生成姿态质量编码,以及更精确的Pose Similarity Encoding II,这进一步帮助Refinement Decoder生成优化结果。
图二:网络结
Pose Similarity Encoding计算了输入的多个姿态之间的相似度。它主要帮助多视角情况下的辅助定位,利用相似的姿态来修复当前的姿态。此外,这一编码也降低了对错误姿态的注意力。
我们在Base Decoder最后一层并行了两个decoder layer来输出带有不同侧重的优化姿态序列,用于产生置信度信息。
Pose Similarity Encoding可以被Base Decoder产生的优化姿态序列进一步优化。我们使用了Pose Quality Encoding和优化后的Pose Similarity EncodingII对Refinement Decoder的注意力进行了引导,对序列进行进一步的优化。
图三:encoding的相加
SynSP以8窗长的输入长度在多个数据集中实现了SOTA的性能,目前的方法多是32或者100+的窗长,此外SynSP还通过并行运算加速了一些算法的处理速度,大大降低了后处理的延迟。
SynSP利用置信度信息,在人体运动优化领域中以最低的时延、最小的窗长实现了SOTA的性能。除了这一领域外,目前大多数任务存在具有一定对抗关系的优化目标,通过这一对抗关系让网络对输入数据进行一定的置信度评估,进而利用这一信息去优化输出,也是我们后面的探索方向。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。