论文:《Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》
1、模型:
1)整体的框架图:
图1.这篇文章先使用VGG19的前十个层获得图片的特征,再将其输入后面的模块进行优化。一个stage中包含两个分支,一个分支用于回归关键点,另一个则回归关键点之间的链接。第一个stage的输入数据为VGG前十层得到的特征,而随后的stage的输入数据为前一个stage的输出和特征。
2)模型细节:
模块输入数据:特征F和上一个stage输出的S,L,如下
2、损失函数:
1)公式细节
其中,Sjt(p)和Lct(p)是stage两个分支的输出,关于人体关键点和链接的预测。Sj(p)和Lc(p)是由已知的数据标签生成的人体关键点位置和链接的groundtruth, W(p)是一个binary mask,当缺失position p的注释信息时,W(p)=0
2)整体的损失函数为:
3)groundtruth的生成:
根据已知的第k个人的第j个部位关键点位置Xj,k,仅仅是一个点,以高斯扩散的方式生成一个范围,如下公式
其中,p为位置p,Xj,k为第k个人的第j个部位关键点位置,上式中,p与x的距离越近S的值就越大,像这样
以最大值的方式融合多个人的多个部位,得到最终的groundtruth
其中:v为该人j1到j2部位的单位向量,
是v垂直方向上的单位向量,计算公式如下
判断p是否在limb上的依据为,p点到j1,j2关键点的位置的距离在一定阈值内
其中nc(P)是所有k个人在点p处的非零向量数(即在不同人的肢体重叠的像素处的平均值)。
3、如何判断两个关键点间存在链接的可能性E
4、获得不同部位两两的配对
实现优化函数:
Z(m,n,j1,j2):j1部位第m个候选点和j2部位第n个候选点之间是否存在链接。
Emn:m和n之间存在链接的可能性大小,可看做该边的权重
条件约束表示:保证一个点仅仅对应一条边
5、融合共享的关键点得到最终的人体关键点结果