前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >​融合视觉语言模型 HPE-CogVLM | 基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!

​融合视觉语言模型 HPE-CogVLM | 基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!

作者头像
AIGC 先锋科技
发布2024-07-08 13:56:17
830
发布2024-07-08 13:56:17
举报
文章被收录于专栏:AIGC 先锋科技

Head 姿态估计(HPE)任务需要对3D空间关系有深入的理解,并精确输出偏航角、俯仰角和翻滚角的数值。之前的HPE研究主要基于非大型语言模型(Non-LLMs),这些模型依赖于从完整图像中裁剪出的近距离人头作为输入,并在真实世界场景中缺乏鲁棒性。 在本文中,作者提出了一种新颖的框架,通过利用CogVLM的视觉定位能力来增强HPE预测任务。CogVLM是一个具有预测目标边界框(BBoxes)定位能力的视觉语言模型(VLM),这使得HPE可以使用全图像信息输入进行训练和预测。 为了将HPE任务集成到VLM中,作者首先通过研究数据复习方法中的复习比例来解决大型语言模型(LLMs)中的灾难性遗忘问题。然后,作者提出并验证了一种基于LoRA层的模型合并方法,该方法保持了参数的完整性,以增强框架中的HPE性能。 结果显示,作者的HPE-CogVLM在跨数据集评估中,在HPE预测的均方误差上比目前基于Non-LLM的最先进方法降低了31.5%。 此外,作者将基于LoRA层的模型合并方法与仅LoRA微调和其他合并方法在CogVLM中进行了比较。结果显示,作者的框架在所有HPE指标上都优于它们。

1 Introduction

如今, Head 姿态估计(HPE)技术可应用于诸如注意力估计、面部识别、客户行为分析、驾驶员辅助系统以及人机交互[39]等各个领域。这项任务涉及从图像或视频中预测人类 Head 的欧拉角(偏航、俯仰和翻滚)。最近一些非大型语言模型(Non-LLMs)如6DRepNet[11]、HopeNet[36]和WHENet[57]在HPE上的研究努力,已经取得了显著的进展。

尽管近期对HPE的兴趣激增,但这项技术在现实场景中的应用仍面临诸多挑战。Non-LLMs通常依赖于范围狭窄的数据集,如300W-LP[58]进行训练,并在类似受限的数据集上进行验证,如AFLW2000[58]和BIWI[9]。这些数据集主要以 Head 特写图像为主,大多展示偏航角从到的前脸,而不是涵盖从到的整个 Head 姿态范围。此外,这些数据集中频繁使用的特写图像不仅导致背景统一,也减少了输入数据的变异性。数据集的统一性导致在多样化的现实世界环境中缺乏鲁棒性。DirectMHP[56]模型在一次性预测HPE方面取得了进展,它是在全范围HPE数据集上训练的,如Agora[33]和CMU[21],但这个模型在平衡 Head 边界框(BBox)检测和HPE任务性能方面存在困难。因此,该模型在现实环境中的有效性仍然不确定。

大型语言模型(LLMs)通过在各项任务中提供复杂的辅助,显著改善了作者的生活。最近,视觉语言模型(VLMs)因其在解释和处理图像和视频信息方面的专长而受到重视[1, 40, 25, 43]。通过将视觉能力整合到LLMs中,VLMs能够实现比传统LLMs更复杂的任务,例如视觉问答[1, 2, 25]和视觉定位[43, 52]。CogVLM[43]的视觉定位能力显示出对多样化环境的强大适应性,为提升传统基于CNN的方法难以解决的任务的鲁棒性提供了机会。在本文中,作者旨在利用定位CogVLM来改进HPE任务的功能。定位CogVLM的能力包括字幕定位、参照表达式生成、参照表达式理解和基于定位的视觉问答[43]。所有这些功能都涉及到以[[, , , ]]格式BBox的目标定位,如图1(a)所示。这种BBox预测能力为本文中学习新的HPE任务提供了基础技能。通过利用作者设计提示中的这一能力,作者使CogVLM能够从整个图像中学习HPE,而不是Non-LLMs中使用的裁剪后的 Head 图像,这极大地帮助模型避免对有限背景的过拟合。

将HPE任务整合到接地CogVLM中不仅为探索开辟了新的机会,同时也带来了一些挑战。首先,诸如图像描述、视觉推理和视觉感知的VLM任务通常包含用自然语言回答问题。

相比之下,作者的HPE任务要求VLM生成精确的数值欧拉角。尽管接地CogVLM可以预测BBoxes,表明其能够产生数值响应,但HPE任务要复杂得多。HPE需要预测人 Head 的偏航、俯仰和翻滚角度,这涉及从2D图像解释3D方向,引入了深度和角度视角的额外维度,而这些在基本的BBox检测任务中并不需要。

因此,它提出了一个挑战:接地模型是否可以提供准确性更高的HPE答案。 其次,灾难性遗忘[37, 17, 26]在微调LLMs时构成了重大挑战。灾难性遗忘问题是这样一个现象:当LLMs获取新数据时,它们倾向于忘记之前学到的信息。

目前,在复杂的接地任务中,还缺乏针对灾难性遗忘问题的研究。 最后,原始接地CogVLM只涉及输出以[[, , , ]]格式混合自然语言和BBoxes的响应。

在本文中,作者引入了新的格式, , 来回答如图1(b)所示的HPE提示。这丰富了原始接地CogVLM的知识,同时也增加了输出格式的复杂性。从经验上,作者观察到LoRA[13]微调和模型合并方法经常生成无效的混合输出,如[[, , ]],这在本文中被称为无效答案。更多无效答案的详细信息见附录A.1表5。

在本文中,为了解决接地任务中的灾难性遗忘问题,作者评估并改进了非接地VLM中使用的数据复演方法[37, 17],以克服灾难性遗忘问题。在这里,复演比率表示从早期训练阶段随机选择的图像的百分比,这些图像在训练新任务期间相对于早期训练图像总数重新整合[37, 17]。

结果显示,要求多个准确数值输出的视觉接地任务需要一个比非接地VLM显著更大的复演比率。作者提出并验证了一种基于层的模型合并方法,以增强HPE任务的性能。

利用这种合并方法,作者的模型表现出卓越的鲁棒性,在跨数据集评估中,欧拉角的平均绝对误差(MAE)降低了31.5%,与非LLMs的最先进(SOTA)相比。

此外,作者将基于层的模型合并方法与LoRA微调和合并模型在CogVLM中进行了比较。作者的方法在MAE和无效答案比率降低方面始终表现出更优的性能。作者的贡献可以总结如下:

  • 作者的工作开创了通过利用CogVLM的视觉接地能力来改进HPE任务,显示了VLM模型在保持现有目标定位知识的同时处理复杂3D空间感知的能力。
  • 作者首次探索了复杂VLM接地任务中的灾难性遗忘问题和无效答案问题。

作者提出了一种新颖的基于层的模型融合方法,该方法采用“赢者全得”策略,在MAE和无效答案比例降低方面显著优于非LLM的SOTA和基于VLM的模型。

这表明作者的方法在HPE任务中具有卓越的鲁棒性和有效性,并有可能在各种接地任务中推广应用。本文正在审稿中,代码将随后发布。

2 Related Work

Head 姿态估计。传统的 Head 姿态估计(HPE)方法包括基于标记和无标记方法。由于全范围的HPE常常涉及到面部特征不可见 Head 方向,作者专注于无标记方法。在这种方法中,有几个模型将连续旋转变量划分为离散的箱进行分类[36; 57; 12; 16; 53]。除此之外,FSA-Net [48]采用分阶段回归和特征聚合方案来预测欧拉角。6DRepNet [11]和TriNet [5]估计旋转矩阵而不是欧拉角。这些非标记方法在实际场景中存在显著的鲁棒性问题。

灾难性遗忘问题。灾难性遗忘一直是限制LLM有效性的一个重要问题,因为它们在学习新知识时往往会忘记以前的知识。Kirkpatrick等人[23]和李等人[24]控制了参数更新的程度,以防止先前学习任务的遗忘问题,这需要仔细调整以达到最佳性能。徐等人[46]和黄等人[18]将专门用于各个任务的参数分开,然而这种方法引入了额外的参数。重演方法是最广泛使用的方法来减轻灾难性遗忘,它在新的任务微调过程中重新使用一小部分旧任务数据集。在先前的文献中,对于复杂定位任务的灾难性遗忘问题并没有进行很好的研究。在本文中,作者评估并改进了针对作者定位任务的重演方法。

LLM中的模型合并。在基于模型合并来增强LLM性能的方法上已经有了广泛的探索。这种方法将具有专门能力的多个LLM合并为一个能够处理跨多个领域任务的单一LLM。典型的合并方法通常应用规则或算法来修剪或合并LLM的参数。例如,任务算术[19]定义了算术规则来融合新能力或删除不需要的能力。

进化模型合并方法[3]已证明了进化算法在LLM中的有效性。然而,传统的合并方法通常会产生混合的无效答案,因为作者的任务需要更高复杂度的输出格式。

3 HPE-CogVLM Framework

所提出的HPE-CogVLM框架如图2所示,通过多阶段过程构建。它特别设计用于增强模型在理解和处理与HPE相关的复杂任务的能力,同时保留其原始的BBox预测功能。每个阶段的微调过程遵循CogVLM的微调脚本[1],在包括注意力层的 Query 、键、值和密集层中实施LoRA [13]。随后,每个层的LoRA矩阵累积到原始模型的相应层中。以下是框架中每个阶段的详细描述:

阶段1:在弱标签数据上对原始接地CogVLM进行预训练

在这个初始阶段,原始接地CogVLM在CrowdHuman数据集上进行预训练。这一阶段的目的是增强模型对HPE任务的理解,因为CrowdHuman数据集提供了丰富的人头图像。由于原始的CrowdHuman数据集不提供HPE的 GT (GT)标注,作者通过6DRepNet推理出弱HPE标注。这一阶段的输出模型被称为弱标签CogVLM,如图2所示。对于这一阶段,作者主要的目的是使用弱标签数据预热模型,旨在使模型对各种人头朝向有全面的了解。

阶段2:在特定任务(HPE)数据上对弱标签CogVLM进行有监督的微调

在预训练之后,模型进入仅使用特定任务HPE数据集进行有监督微调的阶段。特定任务的HPE数据集包含的图像较少,但标注比弱标签图像更准确。这一阶段专注于改进弱标签模型在HPE方面的能力,旨在最大化HPE任务的精确度。输出模型被称为面向HPE的CogVLM,如图2所示。

阶段3:原始接地CogVLM与面向HPE的CogVLM之间的基于层的合并

在这个关键阶段,基于余弦相似性准则,将原始的接地CogVLM与面向HPE的CogVLM进行合并。在作者的框架中,余弦相似性表示沿最后一维的层参数张量之间的平均余弦相似性。余弦相似性用于衡量层之间共享的信息量。设定一个较高的余弦相似性阈值,以确保内容上有显著的重叠。如果相似性低于这个阈值,作者选择完全保留原始知识。否则,如果相似性超过阈值,这表明由于严格的准则导致信息上有大量重叠,作者选择来自面向HPE的CogVLM的整个层,以确保最小化丢失重要现有知识的风险。

先前的方法通过设置超参数或在参数层面上开发算法来丢弃和合并特定参数[19; 47; 51; 3],从而合并模型。然而,基于参数的合并模型常常在作者的任务中混合输出结构,导致无效的回答。例如,当作者用HPE提示进行 Query 时,基于参数的合并模型可能会返回类似"NLP响应的“一个人的头””或提供诸如“[[999,231,123,389]]”之类的无意义响应。更多示例详见附录A.1表5。为了克服这个问题,作者采用“赢者全拿”的方法来选择来自原始接地CogVLM或面向HPE的CogVLM的层。基于层的合并CogVLM通过这种方法能够保留每个模型专业参数的完整性。以下是合并准则的细节:

  • 作者计算并排名两个模型所有层之间的余弦相似性,并始终从原始接地CogVLM模型中选择余弦相似性最小的1%的层。
  • 当两个模型中各层的余弦相似性小于阈值(在作者的实验中设置为0.95)时,作者也选择原始接地CogVLM的层。
  • 否则,作者选择来自面向HPE的CogVLM的层。

第4阶段:在混合数据上对基于层的合并CogVLM进行持续微调。

在合并之后,基于层的合并CogVLM将进行一轮额外的微调,同时使用特定任务的HPE数据集和复习图像。作者预先定义了第一阶段的最优复习比例,方法是用带有不同比例复习图像的弱标签图像调整原始的接地CogVLM。然后在微调合并模型时使用最优复习比例。

与第二阶段的微调不同,这个阶段只涉及一段简短的微调期,不到一个训练周期。纳入额外的简短微调的理由是,尽管层合并保持了参数的完整性,但它缺乏必要的微调参数来提高预测准确性。持续微调是更新权重优于其他算法的最佳方式。在作者的方法中,合并模型可以快速微调以提供准确的数值预测。此阶段的最终输出模型如图2所示的HPE-CogVLM

第五阶段:在测试数据上评估HPE-CogVLM

为了展示作者模型的鲁棒性,作者使用现实世界的CMU全景图像来评估模型在HPE任务上的性能。同时,作者使用复习测试数据集来评估模型在BBox预测任务上的性能。

4 Experiments Setup

HPE Task Prompt Design

在一些非LLM模型中,如6DRepNet和HopeNet,需要将人体 Head 区域裁剪作为初始步骤。在本文中,作者提出了一种新的提示方法,允许作者利用全图像信息来训练和预测人体姿态估计(HPE)。在作者的提示中,当有多个人在场时,利用边界框(BBox)坐标来指定感兴趣的 Head 。因此,系统能够有效地聚焦于特定 Head ,这使得减少劳动密集型的手动标注需求并自动化推理过程变得更加容易。

同时,学习自注意力机制的全局特征和交叉注意力机制的兴趣 Head 特征,以提高人体姿态估计任务(HPE)的鲁棒性。

Datasets

表1概述了在作者框架各个阶段中使用的数据集。CrowdHuman数据集[38]由于其广泛收集的人像图片,被用作预训练数据集。其 Head 姿态标注是由预训练的6DRepNet[11]模型推理出的伪标签生成的,这部分被称为弱标签图像。合成的Agora数据集[33]作为微调 Head 姿态估计(HPE)的数据集,它包含了全范围的 Head 偏航角人像图片,并提供SMPL-X参数[34]的GT( GT 数据)。其 Head 姿态标注是使用DirectMHP[56]方法生成的。原本由CogVLM用于学习BBox预测的Refcoco[52],Refcoco+[52]和 Refcocog[28]训练数据集被选作复习图像,以帮助减轻现有知识的灾难性遗忘。

在作者的实验中,应用了不同比例的复习图像来确定最佳的复习比例[37, 17],以解决灾难性遗忘问题。从CMU Panoptic数据集(CMU数据集)中选择了一个子集作为评估HPE任务的测试数据集,因为其包含的真实行人的全景图像与真实生活场景非常接近。图像和标注的选择是由DirectMHP 2指导的。为了评估目标BBox定位,从Refcoco和Refcoco+的testA和testB数据以及Refcocog的测试数据集中选择了BBox评估数据集。

实现细节

原始的地面化CogVLM由于其在BBox预测方面的强大能力,被用作所有实验的基础模型。它也作为BBox评估的 Baseline ,并为学习HPE任务提供了初步必要的能力。在微调过程中,作者选择10作为作者的LoRA秩(rank)。在预训练过程中,选择作为学习率。所有其他训练参数遵循CogVLM的默认设置。实验是在两个NVIDIA A100 80GB GPU上进行的,训练批处理大小为8。作者框架的第1、第2和第4阶段的训练过程分别耗时20、50和10小时。

Evaluation Metrics

作者定义了四个评估指标,用于评估人体姿态估计(HPE)和边界框(BBox)预测任务,如下所示:

Baseline Methods

在本文中,作者考虑了三种类型的 Baseline 方法与作者的HPE-CogVLM进行比较。

非LLM方法,包括6DRepNet、HopeNet和WHENet,被选为HPE非LLM Baseline 。当前的SOTA模型6DRepNet特别在LLM实验中使用的相同Agora和CMU数据集上进行重新训练和测试,以确保公平比较。这个模型训练了100个周期,并选择了最佳的MAE进行与作者的HPE-CogVLM的 Baseline 分析。由于HopeNet脚本硬编码且WHENet训练脚本不可公开获取,因此使用了HopeNet和WHENet的预训练模型。

非合并CogVLM,直接微调模型而不应用模型合并技术,被选用来比较作者的合并方法与仅微调方法[37; 17; 26]。非合并CogVLM与作者的HPE-CogVLM方法的不同之处在于,非合并CogVLM跳过了第2阶段和第3阶段,而是在第4阶段经历了显著更多的训练迭代,这等同于HPE-CogVLM框架中第2阶段和第4阶段的总迭代次数。例如,作者的HPE-CogVLM在第2阶段和第4阶段分别微调了25k和5k次迭代,而非合并CogVLM只在第4阶段微调了30k次迭代。这确保了在HPE任务训练迭代方面的公平比较。

任务算术(TA)合并CogVLM,遵循作者的框架,但是用基于TA的合并替换了基于层的合并,这是为了提供一个 Baseline ,用于将作者的合并方法与其他合并方法进行比较。TA合并过程之所以被选中,是因为它构成了许多其他合并算法的基础[47; 51]。在这个过程中,作者将任务算术的lambda参数设置为0.5[19],给BBox预测任务和HPE任务赋予了同等的重要性。

5 Experimental Results

Baseline Comparison

表2的结果展示了作者的HPE-CogVLM模型与第4.5节中描述的各种 Baseline 方法的性能比较。

与Non-LLMs相比,作者的HPE-CogVLM模型的MAE显著更低。HPE-CogVLM的MAE比WHENet、HopeNet和6DRepNet分别低75.1%、66.8%和31.5%。Non-LLMs的表现也逊于其他基于CogVLM的模型,这突显了基于VLM的模型相对于Non-LLMs在鲁棒性方面的优势。

与Non-merging CogVLM相比,HPE-CogVLM的MAE低了10%。同时,作者模型的比Non-merging CogVLM小2.5倍。这表明作者的基于层的合并方法在HPE方面比不使用任何模型合并技术的方法更为专业。关于BBox结果,HPE-CogVLM在测试数据集中的BBox预测准确度比Non-merging CogVLM低0.6%、0.5%和1.1%,然而,如第4.5节所述,Non-merging CogVLM在训练复习数据集上需要五倍的迭代次数。

与TA合并CogVLM相比,作者的HPE-CogVLM在所有指标上均获胜。例如,在测试数据集上进行评估时,HPE-CogVLM的BBox预测准确度分别比TA合并CogVLM高1%、2.4%和1.7%。而TA合并CogVLM的为68.9%,是HPE-CogVLM的1325倍,表明只有31%的HPE任务的响应是有效的。由于无效的HPE响应数量很高,MAE指标在评估性能方面变得无效。这突显了即使在额外一轮的微调之后,任务算术合并仍然无法在作者的研究域内产生相关的数值响应,最终证明对于HPE任务来说效果不佳。

Performance of HPE-oriented CogVLM on HPE Task Only

在作者的框架中,针对HPE任务的HPE-oriented CogVLM是作者最有效的模型。

表3展示了没有包含边界框预测能力的6DRepNet和HPE-oriented CogVLM在相似训练周期下的比较性能结果。考虑到在这个阶段没有实施数据复现,HPE-oriented CogVLM在Refcoco测试中的低准确率是可以预期的。在MAE指标方面,HPE-oriented CogVLM的MAE从3个周期的6.4逐渐减少到9个周期的6.24。

当与6DRepNet在同一周期内进行比较时,作者的模型的MAE数值要低得多。例如,在第9个周期,HPE-oriented CogVLM的MAE为6.24,比6DRepNet低了**45.5%**。将6DRepNet的训练扩展到100个周期后,尽管其训练MAE从9.40降低到2.23,但在CMU数据集上的MAE并没有改善,仍然稳定在11.4左右。这表明模型对Agora数据集过度拟合,跨数据集的推理性能没有提升。这种鲜明的差异强调了VLM相较于非LLM的优越性能。

Selecting Optimal Rehearsal Ratios for Mitigating the Catastrophic Forgetting Problem

The Influence of Rehearsal Ratios on Multi-task Learning

图3展示了在不同复习比例下,边界框预测任务和人体姿态估计(HPE)任务的比较结果。在两个HPE-CogVLM模型之间,复习比例较低(10%)的模型达到了7.36的MAE,比复习比例较高(25%)的模型的8.36低了12%。相反,随着复习比例的提高,Refcoco测试准确度略有提升,比低比例情况下增加了0.3%。在非合并CogVLM和TA合并CogVLM的结果中也观察到了类似现象。直观地说,较高的复习比例有助于更好地保留现有知识,因为更多的先前任务数据被包含在微调过程中。因此,较高的复习比例可以提高现有知识的保留,但这是以新任务性能为代价的。因此,作者在旧知识保留与新任务性能之间寻求平衡。在作者的案例中,10%复习比例的HPE-CogVLM在HPE和BBox预测方面显然是最佳的模型。更多的实验结果列在附录A.4的表7中。

6 Conclusions

在作者的论文中,作者提出了一个新颖的框架,通过使用接地CogVLM来增强人体姿态估计(HPE)任务。作者设计了提示来使CogVLM从全图像中学习HPE,探索最优的复述比例以防止灾难性遗忘问题,并引入了一种基于层的合并方法。这个新框架在非LLM方法和其他基于VLM的方法上展示了卓越的鲁棒性和有效性。

局限性 由于GPU资源的限制,作者的实验范围受到了限制。因此,在本研究的范围内,未能充分探索更大规模的实验。

在这种情景中特别值得注意的是模型表现出的遗忘和学习的本质——在新的知识巩固之前,旧的知识显著减少。这与人类学习形成鲜明对比,在人类学习中,新旧知识常常共存,甚至可以相互支持获取。

在人类认知中,学习新任务通常涉及将新信息与现有知识整合,而不是像这个模型中那样出现灾难性遗忘。

参考

[1].HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • 3 HPE-CogVLM Framework
  • 4 Experiments Setup
  • HPE Task Prompt Design
  • Datasets
    • 实现细节
    • Evaluation Metrics
    • Baseline Methods
    • 5 Experimental Results
    • Baseline Comparison
    • Performance of HPE-oriented CogVLM on HPE Task Only
    • Selecting Optimal Rehearsal Ratios for Mitigating the Catastrophic Forgetting Problem
    • The Influence of Rehearsal Ratios on Multi-task Learning
    • 6 Conclusions
    • 参考
    相关产品与服务
    NLP 服务
    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档