Video-LLava与YOLOv8联手，实现更精准的检测！

未来先知

发布于 2024-10-25 15:11:07

2150

交通标志识别（TSR）是自动驾驶车辆的关键组成部分。尽管实时目标检测算法（如YOLO）很受欢迎，但训练数据质量和恶劣天气条件（如大雨）可能导致检测失败。当物体之间存在视觉相似性时，这些失败可能特别危险，例如将30公里/小时的标志误认为更高的限速标志。本文提出了一种方法，结合视频分析和推理， Prompt 带有人类参与的引导大视觉模型，以提高YOLO在检测道路限速标志的准确性，尤其是在半真实世界条件下。假设Video-LLava的引导 Prompt 和推理能力可以增强YOLO的交通标志检测能力。这一假设得到了基于CARLA汽车模拟器记录的视频中人工标注的准确性指标的评估支持。结果表明，结合YOLO、Video-LLava和推理的协作方法可以有效地解决阻碍YOLO检测能力的恶劣天气和多云条件。

1 Introduction

智能交通系统（ITS）在智能城市范式中得到了显著的普及。ITS的关键组件之一是交通目标检测，这项技术利用计算机视觉和图像处理来识别数字图像中的特定物体。

交通标志识别（TSR）是自动驾驶车辆（AVs）[2]中的一个最为关键的方面，尤其是在解释道路上的最高允许速度限制标志时。通过将合成图像与现实世界图像相结合，扩展现有数据集的多样性，以训练YOLO算法，已经证明可以积极影响其物体识别性能。然而，YOLO的性能可能受到天气条件的影响。

为了在半真实世界条件下解决这个挑战，本文提出了一种新颖的方法，该方法利用Video-LLaVA[4]的迭代推理来提高YOLO目标检测的准确性和可靠性，特别是针对限速交通标志。该过程首先使用YOLO v8记录的视频分析速度限标志并确定其值。然后，人类专家评估YOLO的性能。

如果YOLO无法准确识别限速标志，则将其输出传递给Video-LLaVA。专家使用通用问题 Prompt Video-LLaVA，并用每个响应来完善后续 Prompt 。

这种迭代方法有助于Video-LLaVA找出YOLO的不准确性并正确确定限速标志。图1说明了高层次推理概述。此时，YOLO v8记录的视频输出作为Video-LLaVA的输入。

人类专家提出通用问题，每个响应随后成为下一个 Prompt 的输入。人类专家不提供直接答案。遵循此过程并确定YOLO的不准确性后，Video-LLaVA试图确定正确的限速标志。

本文其余部分的组织如下。第2节提供了相关工作。大型视觉语言模型在第3节中进行描述。第4节概述了使用Video-LLaVA Prompt 人类专家进行目标检测的实现。

2 Related work

大型语言模型（LLMs）在自然语言处理（NLP）领域表现出色，应用场景包括新闻摘要、情感分析以及基于文本的推理等。这些模型能够理解以文本和图像形式的数据，生成文本数据，并提供解决需要复杂推理的任务的解决方案。在文献[5]中，Azarafza等人（2024）探讨了基于LLM的混合推理在自动驾驶场景中的应用，通过分析在提供额外上下文时检测到的物体和传感器数据，展示了这些模型在动态环境中改善决策过程的潜力。

视频多模态模型处理输入视频，并根据用户提供的 Prompt /命令生成响应。这些多模态模型的核心需要满足目标检测的基本要求，以便在响应用户 Prompt 时识别出视频中的感兴趣区域（ROI）。这还涵盖了关于文本生成、图像描述、图像-视频编码等更大范围的研究工作。最近，目标检测领域取得了进步，出现了可以处理视觉和文本数据的LLaVA模型。与传统方法不同，LLaVA模型将描述性语言信息集成到目标检测、分类和定位中，从而增强效果。

最近，刘等人（2024）[6]在链式热点（Chain-of-Spot）中证明了交互推理可以显著提高大型视觉语言模型的性能。这种方法可以动态地识别和关注图像中的关键感兴趣区域（ROIs），从而实现视觉特征提取的显著改进，并在多个基准测试上取得最先进的结果。

此外，矫等（2024）[7]进行了一项实证研究，表明将最先进的目标检测和OCR模型与多模态大型语言模型（MLLMs）相结合可以显著提高图像理解能力。他们采用了如LLaVA-1.5 [10]，DINO[15]和PaddleOCRv2[16]等模型。改进后的LLaVA-1.5在十个基准测试中的标准化平均得分提高了12.5%，这表明基于文本的检测信息在提高整体性能方面的有效性。

段等人（2024年）提出了InstructDET[8]，一种以数据为中心的方法，用于参考目标检测（ROD），该方法允许根据用户提供的输入/指令定位目标物体。通过利用基础模型生成类似物检测指令，他们构建了InDET数据集，该数据集涵盖了与目标检测相关的广泛用户指令。这种方法和使用InDET数据集在标准REC数据集和新开发的InDET集中，与现有方法相比取得了显著的改进。

Pan等人（2024年）的另一项相关研究[9]探讨了将YOLOv8与LLaVA结合用于监测河流空间中的人类活动。这项研究表明，除了对个体进行基本的计数和定位外，将这两种模型与实施引导 Prompt 相结合，可以识别出人类活动如步行、跑步和滑板等。因此，显著增强了环境理解。

最近在视频多模态模型和目标检测方面的工作已经显著提高了视觉特征提取和理解能力。然而，在更广泛的应用场景中，将视觉和文本数据相结合以提高性能仍然是一个需要探索的领域。因此，本研究旨在分析将基于文本推理的方法整合到大视觉模型中，以协助YOLO提高TSR的结果。

3 Large Vision-Language Model

大型语言模型（LLMs）采用基于 Transformer 的神经网络架构，并在大量文本数据上进行训练，以识别自然语言中的模式和关系。这些模型展示了既解释文本又生成文本的能力，类似于人类语言。然而，LLMs主要关注处理文本输入和输出，缺乏直接感知和推理视觉信息（如图像和视频）的能力。这一限制促使了将LLMs扩展以处理多模态输入（不仅仅是文本）的研究。

视觉语言模型（VLMs），也称为大型视觉语言模型（LVLMs），通过使LLMs能够理解和生成基于文本和视觉输入的响应，试图弥合这一差距。这些模型通常涉及将计算机视觉组件（如卷积神经网络（CNNs）或视觉 Transformer （ViTs））集成到LLM架构中，以提取视觉特征，这些特征然后与LLM架构内的文本表示进行对齐和融合。预训练在大规模图像-文本或视频-文本数据集上以及指令调优[17]等方法在将LLMs定位在视觉语境中进行任务（如视觉问答、图像/视频描述、多模态推理）方面取得了有前景的结果。

最近的一些视觉语言模型，如Video-LLaVA[4]，通过引入统一的视觉语言模型方法，将图像和视频数据集成到大型语言模型的一个连贯的表示中，从而向前迈进了一步。Video-LLaVA基于一个自回归语言模型，该模型通过在Llava1.5[10]和VideoChat[12]生成的多模态指令遵循数据上进行微调。

如图2所示，Video-LLaVA的结构设计旨在有效地将视觉和文本数据集成到一个统一表示中，以实现增强的多模态推理。其结构的核心是LanguageBind编码器[18]，这些编码器从图像和视频中提取特征，并将这些视觉信号映射到一个共享的文本特征空间，从而实现统一的视觉表示。

这些编码器是从OpenCLIP[14]中初始化的，以确保视觉特征与语言特征对齐，从而创建一个统一的视觉表示。该模型的核心是大型语言模型（LLM），具体是Vicuna-7b v1.5[13]，它将这个统一的视觉表示与分词的文本 Query 一起处理，以生成连贯且与上下文相关的响应。为了促进这种集成，使用了视觉投影层来编码统一的视觉表示，然后再与文本 Query 相结合。最后，词嵌入层对文本输入进行分词，将其转换为LLM可以处理的格式。

该训练涉及将文本和视觉信号编码为 Token 序列，并最大化似然概率以实现多模态理解。

训练 Pipeline 包括两个主要阶段：理解训练和指令调优。在理解训练阶段，模型通过使用大量图像/视频-文本对的数据集，学会使用自回归损失来发展基本的视觉理解。

指令调优然后增强模型根据不同指令响应复杂视觉理解任务的能力，并合并多个会话数据轮次。

4 Object detection reasoning with Video-LLaVA

这一节介绍了与所提出的人机交互推理以及 Prompt YOLO和Video-LLaVA[4]进行速度限制识别的协作相关的详细工作流程。图3呈现了这种方法的流程图。该过程从在CARLA模拟器中输入数据并训练YOLO v8开始，YOLO v8是YOLO家族中的一种最先进的模型。

这里的重点是检测道路上的速度限制；其他目标如车辆、交通信号灯、自行车和行人则被排除在外。视频记录是逐步捕获的。

如果YOLO正确识别了限速，流程就完成了。否则，视频将作为Video-LLaVA的输入。如果Video-LLaVA在第一次尝试时就能检测到限速，流程就完成了。否则，需要人类专家根据Video-LLaVA的初始响应提供指导。强调的是，人类 Prompt 是基于Video-LLaVA的自身输出逐步制定的。在每个步骤中，Video-LLaVA的响应都为后续的人造 Prompt 提供了基础。

人类专家的角色在于通过考虑空间限制来提供指导，以细化关注区域。这一迭代过程将持续到找到正确的限速为止。必须强调的是，人类干预并不涉及直接提供答案。这种合作方法增强了系统的推理能力，在检测到正确的限速之前，专注于关键区域。

5 Analysis of scenarios

这一部分介绍了两个展示场景的分析以及YOLO、Video-LLaVA和利用Video-LLaVA改进YOLO输出的一种推理方法。共随机录制了20个视频，评估基于这些20个短视频，每个视频时长为3到6秒。

AI论文检测评估和分析的重点是'限速'标志，其他检测到的物体则不被考虑。为了展示这些方法的性能，从作者录制的20个视频中，随机选择了2个场景。

这些场景在CARLA模拟器内实现，以展示这些方法的表现。场景在CARLA模拟器内实现，将自动驾驶模式设置为车辆。选择Town02作为城市环境，其中随机生成25辆车辆。为了增加检测的难度，作者将天气条件设置为'大雨'和'完全多云'。

Scenario 1

第一个场景使用了一个随机选择的视频片段。自动驾驶车辆正在运动，道路上放置了一个“限速30”的交通标志。图4展示了YOLO v8和人类在环路中的推理方法的输出。如图4a所示，YOLO成功检测到车辆和限速标志。然而，通过YOLO检测到的限速被错误地识别为“60”。

相比之下，图4b)表明，通过四个问题引导人类输入的Video-LLaVA能够正确确定限速为30。引导人类在环路中推理过程的 Prompt 呈现在一个专门的加粗框内。值得注意的是，这里的主要关注点是纠正错误的检测，并利用视觉语言模型（VLMs）提高YOLO的性能。需要承认的是，YOLO展示了许多准确检测，这些检测不在本场景的范围内。

Appendix A Preprint - October 8, 2024

Scenario 2

第二个场景中，自动驾驶车辆在“大雨”天气条件下穿越城市环境，类似于场景1。然而，与场景1的一个重要区别在于雨对摄像头功能的潜在影响，如图5所示。因此，YOLO在这个场景中最初无法检测到目标物体。这个场景展示了对摄像头系统的一个具有挑战性的情况，因为恶劣的天气条件会极大地阻碍目标检测能力。

这一场景突显了YOLO在模糊条件下执行目标检测的局限性。虽然车辆检测成功，但在模糊的最初几秒内，限速标志仍然未被检测到。另一方面，Video-LLava的初始 Prompt ，一个一般性的问题询问“这个视频关于什么”，得到了一个大致准确的反应。然而，这个反应提到了虚拟世界（CARLA），错误地表示“玩家控制一辆黄色汽车”。实际上，黄色汽车是从前方接近的车辆，而不是自车。尽管存在这个错误，但重要的是要承认Video-LLava展示了检测限速标志的能力，而YOLO在初始阶段出现了检测失败。

第三阶段利用人类专业知识对由Video-LLaVA生成的初始 Prompt 进行优化。在此阶段，纠正措施旨在减轻先前Video-LLaVA输出中可能存在的错误。此外，人类指导引入了感兴趣区域（ROI）的概念，以在视频帧中关注交通标志的具体位置。

第四个 Prompt 建立在上一轮回答提供的信息之上。在本轮中，答案包含了更详细的解释，例如根据视频内容得出的准确陈述：“街道两侧是建筑物”。此外，答案还指出了自动驾驶车辆的速度，这是人类输入中未提及的细节。值得注意的是，这个 Prompt 成功地引导Video-LLaVA正确地在城市环境中检测到限速为60公里/小时。必须承认的是，Video-LLaVA在分类自动驾驶车辆时存在轻微错误，将其分类为黄色。然而，这被认为是一个可接受的误差，因为它并不在 Prompt 的主要关注范围内。

这篇论文关于在虚拟世界中的“驾驶”游戏。玩家控制一辆黄色汽车，该游戏在城市夜晚进行，玩家需要遵守交通规则并避免障碍物。

这段视频讲述的是一款游戏，玩家在虚拟世界中驾驶一辆汽车。这款游戏设定在夜间的一个城市。这条路上的限速是多少？答案：这条路上的限速是30。

视频介绍了一个名为CARLA的AI汽车模拟器，在该模拟器中，自动驾驶车辆在虚拟世界中驾驶一辆汽车。该环境设定在夜晚的城市中，且雨势较大。这座城市是否有限速标志？如果有，那么限速标志位于驾驶员视角的哪一侧：右侧、中央还是左侧？答案是：是的，驾驶员视角中有限速标志。它位于道路的右侧。

这篇论文视频关于 CARLA 汽车模拟器，在其中，自动驾驶车辆在虚拟世界中驾驶一辆汽车。这个环境设置在一个夜晚的城市，并且有严重的雨天。在这个城市中，有一个限速标志，位于驾驶员视线的右侧。速度限制是多少？答案：视频展示了一辆黄色汽车在夜晚沿着街道行驶。该车辆的速度为每小时30公里。在驾驶员视线的右侧，有一个限速标志。街道两旁是建筑物，汽车在限速为每小时60公里的路上行驶。

视频还显示一辆绿色汽车驶过同一街道，但无法确定它是否是那辆黄色汽车。

6 Evaluation

为了评估提出的带有人类交互的推理方法在纠正YOLO所犯错误方面的性能，作者随机记录了20个来自YOLO v8的视频输出。为了建立评估的客观事实，一位人类专家仔细计算了每个视频中正确检测到的限速标志的数量。本节中用于评估比较方法性能的主要指标是准确性。准确性是分类任务的基本指标，其计算方法如下：

图像6展示了本研究中使用的三个目标检测方法：Video-LLava推理、标准Video-LLava和YOLO的比较评估。70%的准确率意味着相较于标准Video-LLava（55%）有显著提升，表明结合推理和 Prompt 技术可以增强模型应对具有挑战性的场景或可能阻碍其他模型的视觉歧义的能力。

尽管YOLO提供了基准性能（50%），但Video-LLava Prompt 在准确性上取得了显著提升，表明其潜在的真实世界应用价值。

7 Conclusion

本研究探讨了将文本推理集成到大型视觉模型（YOLO）以指导交通标志识别（TSR）的改进方法，特别是着重于限速检测。研究评估了与Video-LLava相结合的YOLO v8的性能，Video-LLava是一个结合了人类引导 Prompt 的系统。

人类标注的真实数据作为准确度测量的基础。结果明显表明，在推理和 Prompt 技术辅助下与标准的Video-LLava和YOLO目标检测算法相比，Video-LLava的性能显著提高。

结果表明，对大型视觉模型进行推理显示了与标准的Video-LLaVA显著不同的改进，表明交互特征在某些情况下可以帮助优化预测，从而提高整体性能。当限速为30时，Video-LLaVA模型的正确预测数量显著增加，这可能暗示了对这种条件的特定优势或偏见。可能需要进一步研究以提高它们在其他场景下的性能。

参考文献

[0]. Human-in-the-loop reasoning for traffic sign detection: Collaborative approach YOLO with Video-LLaVA.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-10-23，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自未来先知微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度