CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Neural Network Diffusion
标题:神经网络扩散
作者:Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell
文章链接:https://arxiv.org/abs/2402.13144
项目代码:https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion
摘要:
扩散模型在图像和视频生成方面取得了显着的成功。在这项工作中,我们证明扩散模型还可以 \textit{生成高性能的神经网络参数}。我们的方法很简单,利用自动编码器和标准潜在扩散模型。自动编码器提取经过训练的网络参数子集的潜在表示。然后训练扩散模型以从随机噪声中合成这些潜在参数表示。然后,它生成新的表示,并通过自动编码器的解码器传递,其输出可用作网络参数的新子集。在各种架构和数据集中,我们的扩散过程始终以最小的额外成本生成与经过训练的网络相比具有可比较或改进性能的模型。值得注意的是,我们凭经验发现生成的模型与经过训练的网络的表现不同。我们的结果鼓励对扩散模型的多功能使用进行更多探索。
2.CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples
标题:CounterCurate:通过反事实示例增强物理和语义视觉语言组合推理
作者:Jianrui Zhang, Mu Cai, Tengyang Xie, Yong Jae Lee
文章链接:https://arxiv.org/abs/2402.13254
项目代码:https://countercurate.github.io/
摘要:
我们提出了 CounterCurate,一个全面提高对比和生成多模态模型的视觉语言组合推理能力的框架。特别是,我们发现了两个尚未充分探索的关键问题:忽视物理推理(计数和位置理解)以及使用高性能文本和图像生成模型进行语义反事实微调的潜力。我们的工作开创了一种解决这些差距的方法。我们首先关注 CLIP 和 LLaVA 等多模态模型在基于物理的组合推理中的近机性能。然后,我们使用基础图像生成模型 GLIGEN 应用简单的数据增强来生成微调数据,从而显着提高性能:在我们新策划的 Flickr30k-Positions 基准测试中,CLIP 和 LLaVA 分别 +33% 和 +37%。此外,我们利用高性能文本生成和图像生成模型(特别是 GPT-4V 和 DALLE-3)的功能来策划具有挑战性的语义反事实,从而进一步增强在 SugarCrepe 等基准上的组合推理能力,其中 CounterCurate 优于 GPT-4V 。
3.Semantically-aware Neural Radiance Fields for Visual Scene Understanding: A Comprehensive Review
标题:用于视觉场景理解的语义感知神经辐射场:综合综述
作者:Thang-Anh-Quan Nguyen, Amine Bourki, Mátyás Macudzinski, Anthony Brunel, Mohammed Bennamoun
文章链接:https://arxiv.org/abs/2402.11141
摘要:
这篇综述深入研究了语义感知神经辐射场 (NeRF) 在视觉场景理解中的作用,涵盖了 250 多篇学术论文的分析。它探讨了 NeRF 如何熟练地推断场景中静态和动态对象的 3D 表示。此功能对于生成高质量的新视点、完成缺失的场景细节(修复)、进行全面的场景分割(全景分割)、预测 3D 边界框、编辑 3D 场景以及提取以对象为中心的 3D 模型至关重要。这项研究的一个重要方面是将语义标签作为视点不变函数的应用,它有效地将空间坐标映射到一系列语义标签,从而促进场景内不同对象的识别。总的来说,这项调查强调了语义感知神经辐射场在视觉场景解释中的进展和多样化应用。