昨天,曾经开源OpenPose的卡内基梅隆大学(CMU)公布了ICCV 2019 论文 Single-Network Whole-Body Pose Estimation,提出一种在单一网络实现全人体姿态估计的算法,相对OpenPose大幅提高了速度。
如下图:
在OpenPose只能达到帧率1.6 fps的图像上,该文提出的算法运行帧率可达到13.2 fps,且精度还有改进。
该文作者信息:
作者来自卡内基梅隆大学、RetailNext公司、Facebook AI 研究院。
所谓全人体姿态估计,即对人体躯干、人脸、手部都进行姿态估计,这可以通过先检测人体躯干关键点,然后再针对人脸和手部进行单独的关键点定位实现,这也是OpenPose的做法。
但这种方法需要多个姿态估计网络,速度并不快。
作者希望在OpenPose算法框架下,使用单一网络实现全人体的姿态估计。
下图为该文提出算法流程图:
作者是在论文OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields 基础上进行了改进,将原本人脸、手部 Part Affinity Fields直接合并进入人体的Part Affinity Fields, 进行多任务学习,实现上述功能。
作者提出的算法在人体Body-foot 部位数据集与OpenPose的精度比较:
作者提出的算法在人脸数据集与OpenPose的精度比较:
作者提出的算法在手部数据集与OpenPose的精度比较:
可见,该文提出的算法相比OpenPose精度相当,或有小幅提高。
算法运行速度的比较:
可见该文提出的算法随着图像中人数的增加,运行时间不变,而OpenPose则随着人数线性增长,该文提出的算法在多人全人体姿态估计任务上是OpenPose速度的N倍,N为图像中人数。
论文地址:
https://arxiv.org/pdf/1909.13423v1.pdf
代码地址:
https://github.com/CMU-Perceptual-Computing-Lab/openpose_train