“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
代码:https://github.com/YHDang/dhrnet-multi-pose-estimation
多人姿态估计(MPPE)是计算机视觉中的一个关键任务,它专注于在图像中检测每个人的关键点。它的应用范围广泛,包括教学管理和评估[1],人机交互[2],以及虚拟现实[3]。深度学习的最新进展显著提高了MPPE的性能。
尽管目前的多行人估计方法已经通过自上而下[4, 5, 6, 7, 8, 9, 10]和自下而上[11, 12, 13]的方法取得了不错的表现,但它们通常面临着一个挑战,即由于它们的非可微范式,很难同时捕捉跨实例(即实例到实例)和跨关节(即关节到关节)的交互。在多人场景中,丰富的交互信息,包括实例到实例和关节到关节的交互(如图1所示),发挥着关键作用。跨实例交互有助于通过其他人的信息定位当前的人,而跨关节交互有助于通过其他关节的洞察定位当前的关节。因此,这两种交互信息是相互补充的。利用这两种交互信息来源对于提高多人姿态估计方法的性能至关重要。
最近,一些单阶段方法被提出用于捕捉多人场景中的交互关系[14, 15, 16, 17]。与两阶段方法不同,这些单阶段方法将目标和关键点检测统一在一个紧凑的框架中,以端到端的方式灵活地提取特征。尽管这些方法取得了值得称赞的结果,但它们通常遵循单一的固定顺序来建模交互信息,要么通过实例到关节[14, 15, 16]的相关性,要么通过关节到实例[17, 18]的相关性,如图1所示。这种单一的方法往往忽略了跨实例和跨关节交互之间的互补性。从实例到关节或关节到实例相关性建模的单个视角来模拟复杂的交互通常是困难的。
在本文中,作者提出了一种开创性的单阶段方法,称为双路径层次关系网络(DHRNet),旨在同时探索实例或关节之间的交互信息(参见图2)。
作者的方法利用了跨实例和跨关节交互的互补性,以增强多人姿态估计的性能。为了实现这一目标,作者采用了一个实例解码器和关键点解码器,从 Backbone 网络提取的视觉特征中提炼实例和关节的表示。
基于这些解耦的特征,作者引入了一个双路径交互建模模块(DIM),专门设计用来建模跨实例和跨关节交互。DIM包含两个分支,将跨实例(CIM)和跨关节(CJM)交互建模模块按照两种互补的顺序组织,以提取实例到关节和关节到实例的交互信息。跨实例交互关注对检测当前人体重要的人。
相比之下,跨关节交互关注对定位当前关节重要的关节。此外,DIM还包括两个自适应特征融合模块(ADFMs),以增强这两种交互信息之间的通信。为了充分利用这些互补的信息源,作者引入了一个自适应姿态解码器,通过空间和通道注意力融合并激活定位人体关节的基本特征。
本文的主要贡献可以总结如下。
自顶向下方法通常结合一个目标检测器进行行人检测,以及一个单人姿态估计器来定位每个人的关节点。如文献[4, 5, 22, 23, 24]所示,经典姿态估计框架已经展示了卓越的性能。Fang等人[25]引入了一个区域多行人姿态估计(RMPE)网络,以在行人检测错误的情况下增强关节点的定位。Qiu等人[6]设计了OPEC-Net,这是一种面对遮挡挑战的新颖解决方案,通过捕捉图像上下文和姿态结构信息。尽管这些方法取得了令人印象深刻的结果,但它们常常忽略了不同实例之间的交互作用。
自底向上方法最初检测所有关节点,然后将它们与相应的人体关联起来。部分亲和力场[26, 27, 28]通常用于编码相邻关节点之间的连接。Cheng等人[12]提出了HigherHRNet,使用关联嵌入进行关节点分组。Luo等人[13]提出了一种新颖的尺度自适应 Heatmap 回归方法来解决多尺度挑战。Geng等人[29]提出了DEKR,利用多分支自适应卷积进行关节分组时的特征提取。
单阶段方法专注于通过端到端的方式直接回归关节位置。Nie等人[30]引入了SPM,它直接回归关节坐标。为了增强任务相关的特征,Wei等人[31]提出了一种紧凑的点集表示方法来应对姿态估计中的挑战。Mao等人[32]使用动态关键点 Head 来确定依赖于每个实例表示的关节位置。实例表示的鲁棒性对准确关节定位至关重要。Shi等人[33]提出了实例感知的关键点网络,直接估计每个实例的身体姿态。Wang等人[34]提出了CID,以解耦实例表示和关节表示。虽然这些方法通过扩大感受野隐式捕捉不同目标之间的交互信息,但它们可能导致提取的交互信息变得模糊。
关系信息对于准确定位关节至关重要,因为关节之间的相关性有助于学习姿态结构信息[10]。文献[7, 9, 8]使用Transformer通过建模关节标记之间的相关性来建模关节交互。李等人[14]提出了PRTR,采用级联Transformer进行人体检测和关节回归。石等人[15]将姿态估计构建为分层集合预测问题,并提出了PETR直接回归实例感知的姿态。杨等人[16]提出了ED-Pose,首先建模实例间相关性,然后是关节间相关性,从而预测人体框和关节。尽管这些近期工作使用Transformer来计算关系,但它们的性能受到关联信息交换不足的限制。相比之下,作者的工作同时使用两个交互建模分支来模拟从粗到细和从细到粗的交互信息,并通过集成不同分支的优点来丰富交互信息。
跨实例相关性建模:
增强实例感知表示:
跨关节相关性建模:
增强关节感知表示:
其中
表示通道注意力。[
,
]和
分别表示连接操作和通道乘法。
、MLP(
)和GAP(
)分别指sigmoid函数、线性投影和全局平均池化。
姿态解码器与训练损失:
姿态解码器:为了获得鲁棒的姿态特征,作者在姿态解码器中引入了通道和空间注意力[36],以自适应地强调任务相关的特征。然后,使用两个卷积生成关节 Heatmap ,如下所示。
。
和
分别是IJR和JIR分支提取的关系特征。
训练损失:遵循[34],损失函数包括一个实例分割损失,用于提取鲁棒的实例表示,以及一个关节 Heatmap 损失,用于迫使模型学习任务相关的信息。
本节首先概述了所采用的数据集,包括评估指标和实施细节。随后,作者对提出的DHRNet与现有最先进的方法进行了比较分析。在此基础上,作者进行了一系列消融实验,深入探讨了作者提出方法的各个组成部分。最后,作者展示了视觉结果,并对作者方法的有效性进行了定性分析。
作者评估了所提出的方法在COCO [19],CrowdPose[20]和OCHuman[21]数据集上的表现。
COCO关键点数据集[19]包含64K张图像,标注了270K个人体实例的17个身体关节。遵循[5, 34],作者在COCO train2017数据集上训练了所提出的方法,该数据集包含57K张图像和150K个人。此外,作者分别在COCO val2017和test-dev2017数据集上评估了作者的方法。
CrowdPose数据集[20]包含80K个人体姿态,标注了14个身体关节。遵循[34],作者使用旅行集(travel set),包括12K张图像,来训练作者的模型,并使用测试集,包括8K张图像,来评估模型。
OCHuman数据集[21]包含4731张图像中的8110个标注实例。它为每个实例提供了17个标注的身体关节。遵循[34],作者采用了两种不同的实验设置来验证所提出的方法。
与现有技术水平比较部分的开始。
在表1中报告了实验结果。作者记录了参数、GFLOPs、平均推理速度和性能。此外,每组最佳结果用粗体表示,次佳结果用下划线标记。
表1显示,DHRNet在仅引入少量参数增加的情况下,超过了自下而上和单阶段方法。值得注意的是,DHRNet比之前的最先进方法CID [34]提高了0.3%,这突显了在多人场景中进行关节定位时空间相关性信息的重要性。尽管相对于CID [34]的GFLOPs增加了5.57,DHRNet的平均推理速度仅减少了0.2秒。然而,值得注意的是,与SBL和HRNet等自上而下方法相比,DHRNet的表现不佳。这种差异可能是由于单阶段方法对多尺度目标的敏感性较高,而这一问题在自上而下方法的第一阶段检测器中得到缓解。
为了评估所提出的DHRNet的有效性,作者使用CrowdPose数据集与现有方法进行了比较分析,如表2所总结。总体而言,DHRNet取得了显著的平均精度(AP)71.5%,全面优于其他方法。此外,在各个拥挤程度的情况下,DHRNet一致优于当前的最新(SOTA)结果。这些发现强调了交互建模在提高模型性能方面的有效性。通过利用不同层次的相关性信息,DHRNet有效地利用辅助信息准确定位人体关节点。
为了验证DHRNet的有效性,作者在OCHuman数据集上对其进行评估,该数据集包含严重遮挡的场景。实验结果列于表3中。遵循[34]的做法,作者也采用了两种实验设置:分别在OCHuman验证集和COCO数据集上训练模型,并在OCHuman测试数据集上评估模型。
在第一种设置中,DHRNet比CID提高了1.0%的AP。在第二种设置中,作者的DHRNet在OCHuman验证集上比CID提高了0.3%的AP,在测试集上提高了0.8%的AP。从表3可以看出,配备了DIM后,模型的性能显著提高。
在本节中,作者首先评估双路径关系建模的有效性。接下来,作者验证不同关系块组合以及自适应特征融合模块的影响。作者在OCHuman数据集[21]上开展一系列消融研究。
aba
以下是定性分析部分的开始:
[Qualitative Analysis] This section aims to describe the characteristics and changes in the quality of ‘Beishan’ apricots during storage at room temperature. Through visual observation and sensory evaluation, we will analyze the effects of storage time on the appearance, texture, and other qualitative attributes of the fruit.
表4:在OCHuman数据集上关于DIM各种设计的消融研究。"I"和"Jlr"下标分别代表实例联合和联合实例关系分支。
表5:关于DIM中的自适应特征融合模块和姿态解码器的消融研究。
图5展示了实例之间的跨实例相关性以及实例的中心图。在图(d)中,x轴和y轴表示每个人的 Proposal 的索引。通常,为了提高召回率, Proposal 的数量会超过人的边界框数量。图(d)中描绘的跨实例相关性图展示了个体之间的相关性。例如,在图(d)中间的相关性图中,索引为4的人不仅与自己相关,还与索引为1和3的人的 Proposal 相关。这些额外的 Proposal (第1和第3)提供了辅助信息,有助于定位索引为4的人。利用其更丰富的辅助属性,DHRNet相比于CID,在如图中用红色突出显示的中心图等特征方面表现出更优越的性能。#### 4.6.2 联合 Level 相关性的可视化
图6展示了IJR和JIR分支中的跨关节相关性。相关性图中的每个元素表示任意两个关节之间的相关性程度。由于IJR分支中CJM的输入包含了实例的信息,因此IJR学习的关节 Level 相关性是粗粒度的。JIR分支中CJM的输入包含了关节的区分信息,所以JIR获得的关节 Level 相关性是细粒度的。
如图7所示,作者展示了IJR和JIR分支输出的视觉表示,使得可以直观地观察到它们的注意力模式。可视化揭示了IJR和JIR分支注意力机制之间的互补关系。当IJR分支关注某些区域时,JIR分支则会注意到前者忽略的区域。这种互补行为表明这两个分支之间存在着协同努力,增强了模型的场景理解能力。实验结果在多人姿态估计的背景下证实了这种互补关系的显著性。
OCHuman数据集上的可视化。 作者在OCHuman数据集上对DHRNet和CID的姿态估计结果进行可视化,以评估模型在遮挡情况下的性能,如图8所示。对于被遮挡关节的位置(红色圆圈中的关节),DHRNet优于CID。在双路径交互建模的指导下,DHRNet可以通过跨实例相关性捕获实例间的交互,以及通过跨关节相关性捕获姿态结构信息,这使得DHRNet可以利用来自其他实例和关节的信息来定位被遮挡的关节。
COCO数据集上的可视化。 图9展示了在COCO数据集[19]上的定性结果。成对的视觉化展示了CID[34]的输出(左图)和作者的DHRNet(右图)。对于一些复杂的姿态,CID未能检测到关键点,而DHRNet在交互信息的指导下可以准确地定位关节点。此外,由于跨实例和跨关节交互建模不足,CID预测的关节容易发生错位。实验结果表明,提出的DHRNet对于遮挡和复杂姿态具有鲁棒性,证明了作者方法的有效性。
这项工作提出了一种新颖的双路径层次关系建模网络(DHRNet),以灵活自主地捕捉实例或关节之间的交互作用。DHRNet包含一个关键组件:双路径交互建模模块(DIM)。通过整合与当前行人相关的其他实例和关节的信息,DHRNet获得了更丰富的辅助信息来估计当前行人的姿态。作者希望这项工作通过强调跨实例和跨关节交互的重要性,能够有益于整个社区。
[1].DHRNet: A Dual-Path Hierarchical Relation Network for Multi-Person Pose Estimation.