CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Power by Kimi&苏神 编辑丨AiCharm
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.SMART: Advancing Scalable Map Priors for Driving Topology Reasoning
标题:SMART:推进可扩展映射先验以驱动拓扑推理
作者:Junjie Ye, David Paz, Hengyuan Zhang, Yuliang Guo, Xinyu Huang, Henrik I. Christensen, Yue Wang, Liu Ren
文章链接:https://arxiv.org/abs/2502.04329
项目代码:https://jay-ye.github.io/smart/
摘要:
拓扑推理对于自动驾驶至关重要,因为它可以全面了解车道和交通元素之间的连接和关系。虽然最近的方法在使用车载传感器感知驾驶拓扑方面取得了成功,但其可扩展性受到对一致传感器配置捕获的训练数据的依赖的阻碍。我们发现,可扩展通道感知和拓扑推理的关键因素是消除这种依赖于传感器的特征。为了解决这个问题,我们提出了 SMART,这是一种可扩展的解决方案,它利用容易获得的标清 (SD) 和卫星地图来学习地图先验模型,由独立于传感器设置的大规模地理参考高清 (HD) 地图监督。归因于扩展训练,SMART 单独使用标清和卫星输入即可实现卓越的离线通道拓扑理解。广泛的实验进一步表明,SMART 可以无缝集成到任何在线拓扑推理方法中,在 OpenLane-V2 基准测试中实现了高达 28% 的显着改进。
这篇论文试图解决什么问题?
这篇论文试图解决自动驾驶领域中的可扩展性和泛化性问题,特别是在驾驶拓扑推理方面。具体来说,论文关注以下几个问题:
- 传感器数据依赖性:现有的驾驶拓扑感知方法依赖于具有一致传感器配置的车辆捕获的训练数据,这限制了这些模型的可扩展性。
- 数据收集成本和时间:为了扩展这些模型,通常需要从具有统一传感器设置的车辆上收集大量数据集,这既昂贵又耗时。
- 遮挡问题:地面车辆的低视角导致了来自其他车辆、建筑物和物体的遮挡,这对驾驶拓扑推理构成了挑战。
- 地图先验的利用:尽管标准定义(SD)地图和卫星图像广泛可用,但现有的方法仍然受到训练中可用传感器数据的限制。
为了解决这些问题,论文提出了一个名为SMART的解决方案,它利用易于获取的标准定义(SD)地图和卫星地图来学习地图先验模型,该模型由与传感器设置无关的大规模地理参考高清晰度(HD)地图监督。SMART的目标是通过利用地理空间地图和大规模HD地图,实现可扩展和泛化的驾驶拓扑推理,而不需要依赖大量的高质量传感器数据。
论文如何解决这个问题?
论文提出了SMART(Scalable Map Advancing Reasoning for Topology),一个两阶段的驾驶拓扑推理框架,来解决上述问题。具体解决方案如下:
第一阶段:离线地图先验学习
- SD地图和卫星地图获取:
- 从OpenStreetMap获取SD地图,包含全球地点的地理信息。
- 从Mapbox Raster Tiles API获取卫星地图,提供地球表面的网格瓦片。
- 编码SD地图和卫星地图:
- 使用正弦编码将SD地图的2D坐标转换为正弦嵌入。
- 使用预训练的图像模型(如ResNet-50)提取卫星图像特征。
- 交叉注意力机制:
- 将SD地图和卫星地图的特征通过交叉注意力机制编码到一个统一的鸟瞰图(BEV)特征图中。
- 离线车道图解码:
- 使用解码器层结合自注意力、可变形注意力和前馈网络从先验特征中解码出车道图。
- 学习目标:
- 定义包含分类损失、回归损失和拓扑损失的整体损失函数。
第二阶段:集成SMART进行在线拓扑推理
- SMART集成:
- 将训练好的SMART模型无缝集成到任何在线拓扑推理模型中,增强它们的特征表示。
- 两种在线拓扑推理流程:
- 基于BEV的方法:将SMART提取的先验特征直接替代可学习的BEV查询。
- 基于透视图的方法:使用交叉注意力层将先验特征与透视图特征对齐。
- 固定SMART权重:
- 在在线拓扑模型训练期间保持SMART权重不变,以防止过拟合。
通过这种方式,SMART利用大规模地理空间地图和现有的大规模HD地图数据集,实现了令人印象深刻的离线拓扑推理,并提供了可以集成到任何在线驾驶拓扑推理架构中的强大的地图先验表示,从而实现了最先进的性能。这种方法减少了对大量高质量传感器数据的依赖,提高了模型的可扩展性和泛化能力。
论文做了哪些实验?
论文中进行了一系列实验来评估SMART框架的性能,并回答了如下几个问题:
A. 数据集和指标
- 使用Argoverse 2运动预测数据集进行SMART的训练。
- 在OpenLane-V2数据集上进行评估,该数据集扩展了Argoverse 2传感器数据集,并提供了交通元素检测和拓扑关系关联的真值。
B. 实现细节
- SMART使用PyTorch实现。
- 详细描述了采样点数、变换编码器、卫星图像编码、中心线查询等参数设置。
- 描述了训练SMART所需的时间和资源。
C. SMART单独的性能如何?
- 比较SMART与两种最先进的在线驾驶拓扑推理方法(TopoNet和TopoMLP)在车道图生成上的性能。
- 评估了SMART在检测车道(DETl)和车道间拓扑(TOPll)上的性能,并比较了它们的每帧延迟。
D. SMART对在线拓扑推理的提升程度?
- 训练两种在线拓扑推理基线(TopoNet和TopoMLP)与SMART提取的地图先验特征联合,与单独的基线和其他最先进方法进行比较。
- 评估了SMART-OL(在线拓扑推理与SMART集成)在不同指标上的性能提升。
E. SMART在未见区域的泛化能力如何?
- 为了评估SMART在完全未见区域的性能,重新分割训练和验证集以确保地理不重叠。
- 比较SMART-OL与基线在地理不重叠分割上的性能。
F. SMART能否从扩大的训练数据中受益?
- 实验SMART在不同量的训练数据下的性能,观察数据量增加对SMART在离线和在线设置中性能的影响。
G. SD地图和卫星地图融合是否能提升性能?
- 通过消除SD地图或卫星地图中的一个,研究每种模态的重要性。
- 评估融合两种模态是否比单独使用任一种模态能获得更好的性能。
H. SMART能否减少对传感器数据的依赖?
- 比较在线映射模型增强SMART在不同传感器数据量下的性能。
- 评估即使在减少传感器数据的情况下,SMART-OL是否能达到与使用完整传感器数据相当的性能。
这些实验全面评估了SMART在不同设置下的性能,并展示了其在提高驾驶拓扑推理的可扩展性和泛化能力方面的潜力。
论文的主要内容:
论文提出了SMART(Scalable Map Advancing Reasoning for Topology),一个用于自动驾驶的可扩展和泛化的驾驶拓扑推理框架。以下是论文的主要内容总结:
1. 问题背景
- 自动驾驶中的拓扑推理对于理解车道和交通元素之间的连通性和关系至关重要。
- 现有方法依赖于特定传感器配置捕获的数据,限制了模型的扩展性和泛化能力。
2. SMART框架
- 第一阶段:离线地图先验学习
- 利用标准定义(SD)地图和卫星地图学习地图先验模型,由大规模地理参考高清晰度(HD)地图监督。
- 通过交叉注意力机制融合SD地图和卫星地图特征,解码车道图。
- 第二阶段:在线拓扑推理
- 将训练好的SMART模型集成到任何在线拓扑推理模型中,增强模型的泛化能力。
3. 实验
- 在Argoverse 2运动预测数据集上训练SMART,并在OpenLane-V2数据集上评估。
- SMART在离线车道拓扑任务中实现了最先进的性能,并且在在线拓扑推理中显著提升了现有方法的性能。
4. 贡献
- 提出了一个简单而有效的大规模地图先验学习架构。
- SMART模型可以无缝集成到任何拓扑推理框架中,增强鲁棒性和泛化能力。
- 在OpenLane-V2基准测试中取得了最好的性能。
5. 未来工作
- 扩展SMART模型和数据规模,发展全面的地图基础模型。
- 探索地图先验特征在其他自动驾驶任务中的应用,如轨迹预测和运动规划。
总体而言,SMART通过利用地理空间地图和大规模HD地图数据集,提供了一个可扩展和泛化的解决方案,以提高自动驾驶中的驾驶拓扑推理能力。
2.Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
标题:Ola:通过渐进模态对齐推动全模态语言模型的前沿
作者:Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
文章链接:https://arxiv.org/abs/2502.04328
项目代码:https://github.com/Ola-Omni/Ola
摘要:
大型语言模型的最新进展,尤其是在 GPT-4o 之后,激发了人们对开发能够理解更多模态的全模态模型的日益增长的兴趣。虽然已经出现了一些开源替代方案,但在性能上仍然存在明显的滞后于专门的单模态模型。在本文中,我们介绍了 Ola,这是一种全模态语言模型,与专门的语言模型相比,它在图像、视频和音频理解方面实现了有竞争力的性能。Ola 的核心设计在于其渐进式模态对齐策略,该策略逐步扩展了语言模型的支持模态。我们的训练管道从最独特的模态开始:图像和文本,然后使用连接语言和音频知识的语音数据以及连接所有模态的视频数据逐渐扩展模型的技能集。渐进式学习管道还使我们能够保持相对较小的跨模态对齐数据,从而使从现有视觉语言模型开发全模态变得容易且成本更低。此外,为了解锁像 GPT-4o 这样的高级交互式体验,我们进一步设计了一个用于流式语音生成的句子解码解决方案。广泛的实验表明,Ola 在所有模态LLMs中都超越了现有的开放式全模态,同时与类似尺寸的最先进的专用模型相比,实现了极具竞争力的性能。我们的目标是使 Ola 成为一个完全开放的全模态理解解决方案,以推进这一新兴领域的未来研究。模型权重、代码和数据在此 https URL 上是开源的。
这篇论文试图解决什么问题?
这篇论文提出了一个名为Ola的全模态语言模型,旨在解决以下几个关键问题:
- 多模态模型性能差距:尽管大型语言模型(LLMs)在特定模态(如文本、图像、视频和音频)上取得了显著进展,但现有的多模态模型在性能上仍然落后于专门的单模态模型。Ola模型旨在通过全模态能力缩小这一差距。
- 模态间有效对齐:训练全模态大型语言模型的一个核心挑战是如何在不同模态间建立有效的联系和对齐。Ola通过渐进式模态对齐策略来解决这一问题,逐步扩展模型支持的模态。
- 特定领域或任务的能力缺失:现有的一些全模态解决方案在特定领域或任务上存在能力不足的问题。Ola模型通过全面的性能测试和优化,旨在提供更广泛的应用能力。
- 数据需求和用户交互延迟:全模态模型通常需要大量的数据,并且可能存在用户交互延迟的问题。Ola通过设计高效的训练流程和数据准备策略,以减少数据需求和提高交互效率。
- 实时交互体验:为了提供类似GPT-4o的高级交互体验,Ola进一步设计了句子级别的流式解码解决方案,用于流式语音生成。
总结来说,这篇论文试图通过提出Ola模型来推动全模态语言模型的研究和应用,使其在图像、视频和音频理解基准测试中达到与专门化单模态模型相媲美的性能,并且具备实时交互的能力。
论文如何解决这个问题?
论文通过以下几个关键策略解决了全模态语言模型面临的挑战:
1. 渐进式模态对齐策略(Progressive Modality Alignment)
- 基础与扩展:Ola模型从基础的图像和文本模态开始训练,逐步扩展到视频帧、语音数据,最终整合视频和音频。这种策略使得模型能够逐步学习并整合各种模态,而不是一开始就处理所有复杂性。
- 阶段化训练:分为三个阶段:
- 第一阶段:图像和文本训练,建立视觉知识基础。
- 第二阶段:加入视频数据,扩展视觉理解能力。
- 第三阶段:通过视频连接视觉和音频,实现全面的多模态理解。
2. 架构设计与流式解码
- 全模态输入支持:Ola模型支持文本、图像、视频和音频的输入,使用特定模态的编码器或嵌入层进行编码。
- 联合对齐操作:通过联合对齐操作将所有输入统一处理,融合并连接所有序列到核心的大型语言模型中。
- 流式语音生成:采用高质量的语音解码器(如CosyVoice),支持用户友好的流式解码,允许实时生成文本和语音。
3. 高效的数据准备
- 跨模态视频数据:通过从视频和相应的音频中提取信息,构建视频-音频问答和视频语音识别任务,以强化模态间的联系。
- 数据混合:结合学术数据集和开放源视频数据,以提高模型在复杂环境下的语音识别能力。
4. 实验验证
- 全面基准测试:在图像、视频和音频理解基准上评估Ola模型,验证其全模态能力。
- 性能对比:与现有的多模态大型语言模型进行比较,展示Ola在各个模态上的性能。
通过这些策略,Ola模型旨在实现与专门化单模态模型相媲美的性能,并提供实时交互的能力,推动全模态语言模型的研究和应用。
论文做了哪些实验?
论文中进行了一系列实验来评估Ola模型在全模态理解方面的能力,具体实验包括:
1. Omni-Modal Benchmarking
- 对Ola模型在图像、视频和音频理解基准上进行了全面的比较,以展示其全模态能力。这包括在多个代表性的多模态基准测试中评估模型性能。
2. Image Benchmarks
- 使用了包括MMBench-1.1、MMStar、MMMU、MathVista、HalluBench、AI2D和OCRBench在内的综合理解数据集来评估图像基准测试中的性能。
3. Video Benchmarks
- 在VideoMME、LongVideoBench和MVBench等视频基准测试中评估模型,这些基准测试涵盖了从短视频到长视频的多选题问题。
4. Audio Benchmarks
- 专注于音频语言模型的两个主要任务:语音识别和音频问答。使用LibriSpeech数据集作为传统的音频-语音识别(ASR)数据集,以及AIR-Bench提供对音频问题回答能力的全面评估。
5. 实验结果
- 展示了Ola模型在各个基准测试中的性能,并与现有的多模态大型语言模型进行了比较,证明了Ola在图像、视频和音频基准测试中的竞争力。
6. 详细结果分析
- 对于音频基准测试,详细报告了LibriSpeech和AIR-Bench数据集上的实验结果,包括单词错误率(WER)和GPT-4-eval分数。
7. 训练策略分析
- 分析了在渐进式模态训练策略中不同阶段的模型性能,展示了在图像、视频和音频模态之间逐步训练的效果。
8. 跨模态训练数据分析
- 对于跨模态视频-音频数据,进行了消融研究,分析了来自学术数据集和开放源视频的数据组合对模型性能的影响。
9. 定性展示
- 提供了Ola模型在语音和视觉理解任务上的定性生成结果,与现有的视觉-语言模型进行了比较,展示了Ola在处理全模态输入时的优势。
这些实验全面评估了Ola模型在全模态理解方面的能力,并证明了其在不同模态任务中的有效性和优越性能。
论文的主要内容:
这篇论文介绍了一个名为Ola的全模态语言模型,旨在通过理解和整合图像、视频、音频和文本等多种模态的数据来推动全模态语言模型的研究。以下是论文的主要内容总结:
核心贡献:
- 渐进式模态对齐策略:提出了一种逐步扩展模型支持模态的方法,从图像和文本开始,逐步加入视频和音频数据,以实现更好的模态间对齐和理解。
- Ola模型架构:设计了一个支持全模态输入和流式文本及语音生成的模型架构,包括视觉、音频和文本的编码器,以及用于联合对齐的视觉和音频模块。
- 跨模态视频数据:为了强化模态间的联系,特别是视频和音频之间的联系,设计了一种生成跨模态视频-音频数据的方法。
实验和评估:
- 在图像、视频和音频理解基准上进行了广泛的实验,证明了Ola模型在全模态任务中的竞争力。
- 与现有的专门化单模态模型和开源的多模态模型相比,Ola在各项任务中都展现出了优越的性能。
- 提供了详细的性能分析和模型设计、训练策略的有效性证明。
开源贡献:
- 论文承诺将模型权重、代码和数据开源,以促进未来在这一新兴领域的研究。
结论:
- Ola模型通过其创新的训练策略和架构设计,在全模态语言模型领域取得了显著进展,为开发更通用的AI模型提供了新的方向。
总体而言,这篇论文提出了一个强大的全模态语言模型,不仅在技术上取得了突破,而且通过开源其资源,为未来的研究和应用奠定了基础。
3.ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
标题:概念注意: Diffusion Transformers 学习高度可解释的特性
作者:Alec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau
文章链接:https://arxiv.org/abs/2502.04320
项目代码:https://alechelbling.com/ConceptAttention/
摘要:
多模态扩散变压器 (DiTs) 的丰富表示是否表现出增强其可解释性的独特特性?我们介绍了 ConceptAttention,这是一种利用 DiT 注意力层的表现能力来生成高质量显著性图,以精确定位图像中的文本概念。无需额外培训,ConceptAttention 即可重新利用 DiT 注意力层的参数以生成高度上下文化的概念嵌入,从而有助于重大发现,即与常用的交叉注意力机制相比,在 DiT 注意力层的输出空间中执行线性投影会产生明显更清晰的显著性图。值得注意的是,ConceptAttention 甚至在零镜头图像分割基准测试中取得了最先进的性能,在 ImageNet-Segmentation 数据集和 PascalVOC 的单类子集上优于其他 11 种零镜头可解释性方法。我们的工作提供了第一个证据,证明像 Flux 这样的多模态 DiT 模型的表示可以高度转移到分割等视觉任务中,甚至优于 CLIP 等多模态基础模型。
这篇论文试图解决什么问题?
这篇论文试图解决的问题是如何提高多模态扩散变换器(Diffusion Transformers,简称DiTs)的可解释性。具体来说,论文提出了一个名为CONCEPTATTENTION的方法,旨在生成高质量的显著性图(saliency maps),这些图能够精确地定位图像中的文本概念。这种方法不需要额外的训练,而是通过重新利用DiT注意力层的参数来生成与视觉概念相对应的丰富上下文化的文本嵌入,从而生成高质量的显著性图。此外,该方法还在零样本图像分割基准测试中取得了最先进的性能,超过了其他11种零样本解释性方法,这表明多模态DiT模型的表示可以很好地转移到像分割这样的视觉任务上。
论文如何解决这个问题?
论文通过提出CONCEPTATTENTION方法来解决多模态扩散变换器(DiTs)的可解释性问题。具体解决方案包括以下几个关键步骤:
- 概念嵌入的生成:
- 用户指定一组单token概念(如“cat”,“sky”等),通过T5编码器生成每个概念的初始嵌入 c0c0。
- 利用多模态注意力层(MMATTN):
- 在每个MMATTN层中,使用文本提示的投影矩阵(Kp,Qp,VpKp,Qp,Vp)来产生一组键(keys)、值(values)和查询(queries)。
- 单向注意力操作:
- 执行一个注意力操作,更新概念嵌入,以便它们与后续层兼容,同时防止它们影响图像token。
- 通过将图像和概念的键和值进行拼接,执行包含自我注意力(self-attention)和跨注意力(cross-attention)的操作。
- 概念残差流:
- 在MMATTN之后,应用另一个投影矩阵和MLP,并将结果以残差方式加回到概念嵌入 cLcL。
- 在注意力输出空间中的显著性图:
- 通过计算图像输出向量 oxox 和概念输出向量 ococ 之间的点积相似度来产生显著性图。
- 无需额外训练:
- CONCEPTATTENTION不需要额外的训练,而是通过重新利用DiT注意力层的现有参数来生成与不同概念相对应的丰富的文本嵌入。
- 零样本图像分割评估:
- 通过在真实世界的图像上评估CONCEPTATTENTION的零样本语义分割任务的效果,与标注的分割进行比较,测量由该方法生成的归因的准确性和相关性。
- 代码和资源的提供:
- 提供CONCEPTATTENTION的代码,允许研究人员和实践者解释和探索文本到图像扩散变换器的复杂动态。
通过这些步骤,论文展示了CONCEPTATTENTION方法如何生成高保真度的显著性图,揭示了DiTs表示的丰富语义,并在零样本图像分割基准测试中取得了优异的性能,证明了DiT模型的表示可以转移到重要的下游视觉任务中。
论文做了哪些实验?
论文中进行了一系列实验来评估CONCEPTATTENTION方法的有效性,主要实验包括:
- 零样本图像分割(Zero-shot Image Segmentation):
- 使用两个关键数据集:ImageNet-Segmentation和PascalVOC 2012。
- 在ImageNet-Segmentation上,比较CONCEPTATTENTION与多种基于不同基础模型(如CLIP、DINO和扩散模型)的零样本解释性方法。
- 在PascalVOC上,评估单类和多类分割的性能。
- 定量评估(Quantitative Evaluation):
- 对每个方法产生的图像块的原始分数进行阈值处理,以产生二值分割预测。
- 使用标准的分割评估指标,包括平均交并比(mIoU)、像素/块准确度(Acc)和平均精度(mAP)。
- 定性评估(Qualitative Evaluation):
- 展示CONCEPTATTENTION与各个基线方法的分割性能的比较结果。
- 多对象图像分割(Multi Object Image Segmentation):
- 评估CONCEPTATTENTION在区分图像中的多个类别方面的能力。
- 与DAAM(使用SDXL作为背景模型)、TextSpan(使用CLIP作为背景模型)和Flux的原始交叉注意力进行比较。
- 消融研究(Ablation Studies):
- 研究不同架构选择和超参数对CONCEPTATTENTION性能的影响。
- 包括对MMATTN层深度的影响、扩散时间步对分割的影响以及概念注意力操作的影响。
- 概念注意力操作消融(Concept Attention Operation Ablations):
- 比较仅执行图像补丁与概念向量之间的交叉注意力、仅自我注意力、不执行注意力操作和同时执行交叉和自我注意力的性能。
这些实验旨在全面评估CONCEPTATTENTION方法在生成高局部化和语义有意义的显著性图方面的有效性,以及理解多模态DiT表示在下游视觉任务中的可转移性。通过这些实验,论文证明了CONCEPTATTENTION在零样本分割任务中显著优于其他基线方法,并且其表示具有很好的可转移性。
论文的主要内容:
论文提出了一种名为CONCEPTATTENTION的方法,旨在提高多模态扩散变换器(DiTs)的可解释性。以下是论文的主要内容总结:
- 问题阐述:
- 论文指出,尽管扩散模型在文本到图像合成等生成任务中取得了令人印象深刻的成果,但其内部机制仍不完全清楚,类似于黑箱操作。
- CONCEPTATTENTION方法:
- 提出了CONCEPTATTENTION,一种无需额外训练的方法,通过重新利用DiT注意力层的参数来生成与视觉概念相对应的丰富上下文文本嵌入。
- 该方法通过线性投影这些概念嵌入和图像,产生高质量的显著性图,精确定位图像中的文本概念。
- 显著性图的质量:
- 发现在DiT注意力层的输出空间执行线性投影产生的显著性图比常用的交叉注意力机制更清晰。
- 实验评估:
- 在零样本图像分割任务上评估CONCEPTATTENTION,与多种基于不同基础模型的零样本解释性方法进行比较。
- 实验结果显示CONCEPTATTENTION在ImageNet-Segmentation和PascalVOC数据集上均取得了优异的性能。
- 可转移性和下游任务:
- 论文证明了多模态DiT模型(如Flux)的表示可以转移到重要的下游视觉任务,如分割,并优于一些多模态基础模型,例如CLIP。
- 代码和资源:
- 提供了CONCEPTATTENTION的代码,以便研究人员和实践者可以解释和探索文本到图像扩散变换器的复杂动态。
- 结论:
- CONCEPTATTENTION不仅提高了我们对多模态DiTs的理解,还展示了这些模型的表示可以零样本转移到图像分割等任务上,为提高生成AI系统的可解释性、可控性和信任铺平了道路。
总体而言,论文通过提出CONCEPTATTENTION方法,为理解和解释多模态扩散变换器的内部工作机制提供了新的视角,并在图像分割等视觉任务中验证了其有效性。