标题:连接 NeRF、图像和文本
作者:Francesco Ballerini, Pierluigi Zama Ramirez, Roberto Mirabella, Samuele Salti, Luigi Di Stefano
文章链接:https://arxiv.org/abs/2404.07993
项目代码:https://cvlab-unibo.github.io/clip2nerf
摘要:
神经辐射场 (NeRF) 已成为表示 3D 场景和对象的标准框架,为信息交换和存储引入了一种新颖的数据类型。同时,文本和图像数据的多模态表示学习也取得了重大进展。本文探讨了一种新的研究方向,旨在将NeRF模态与其他模态联系起来,类似于图像和文本的既定方法。为此,我们提出了一个简单的框架,该框架利用用于 NeRF 表示的预训练模型以及用于文本和图像处理的多模态模型。我们的框架学习 NeRF 嵌入与从相应图像和文本获得的嵌入之间的双向映射。这种映射解锁了几个新颖且有用的应用,包括 NeRF 零样本分类和从图像或文本中检索 NeRF。
这篇论文试图解决什么问题?
这篇论文探索了一个新的研究方向,旨在将神经辐射场(NeRFs)与其他模态(如图像和文本)相连接。具体来说,它提出了一个简单的框架,利用预训练的NeRF表示模型和多模态文本和图像处理模型,学习NeRF嵌入与对应图像和文本嵌入之间的双向映射。这一映射能够开启多个新颖且有用的应用,包括基于NeRF权重的零样本分类(zero-shot classification)和从图像或文本中检索NeRF。此外,该框架还能够从图像或文本生成全新的NeRF。
论文的主要贡献包括:
论文如何解决这个问题?
论文提出了一个框架来连接NeRF、图像和文本,具体解决方案包括以下几个关键步骤:
clip2nerf
和nerf2clip
,用于在nf2vec嵌入和CLIP嵌入之间进行映射。clip2nerf
用于将CLIP嵌入映射到nf2vec嵌入,而nerf2clip
执行相反方向的映射。通过这些步骤,论文成功地展示了其框架在多个任务上的应用,包括零样本分类、图像和文本检索,以及新视图的生成。此外,论文还提出了一种适应技术,使得模型能够在仅使用合成数据进行训练的情况下,也能在真实图像上表现良好。
论文的主要内容:
这篇论文的主要内容可以总结如下:
clip2nerf
和 nerf2clip
,用于在不同模态的嵌入之间进行双向映射。总体而言,这篇论文为NeRF与多模态数据的交互提供了一个新的视角,并展示了通过映射不同模态嵌入来实现多种应用的潜力。
2.View Selection for 3D Captioning via Diffusion Rankin
标题:通过扩散排名查看 3D 字幕的选择
作者:Tiange Luo, Justin Johnson, Honglak Lee
文章链接:https://arxiv.org/abs/2304.05977
项目代码:https://huggingface.co/datasets/tiange/Cap3D
摘要:
可扩展的注释方法对于构建广泛的 3D 文本数据集至关重要,从而促进更广泛的应用。然而,现有方法有时会导致产生幻觉字幕,从而影响字幕质量。本文探讨了 3D 对象字幕中的幻觉问题,重点介绍了 Cap3D 方法,该方法使用预训练模型将 3D 对象渲染为 2D 视图以进行字幕。我们指出了一个主要挑战:3D对象的某些渲染视图是非典型的,偏离了标准图像字幕模型的训练数据并导致幻觉。为了解决这个问题,我们提出了 DiffuRank,这是一种利用预训练的文本到 3D 模型来评估 3D 对象与其 2D 渲染视图之间的对齐方式的方法,其中高度对齐的视图紧密地代表了对象的特征。通过对所有渲染的视图进行排名并将排名靠前的视图输入 GPT4-Vision,我们提高了字幕的准确性和细节,能够校正 Cap3D 数据集中的 200k 字幕,并将其扩展到 Objaverse 和 Objaverse-XL 数据集中的 100 万个字幕。此外,我们通过将 DiffuRank 应用于视觉问答任务的预训练文本到图像模型来展示其适应性,其中它的性能优于 CLIP 模型。
这篇论文试图解决什么问题?
这篇论文试图解决的问题是在3D对象描述(3D captioning)任务中存在的幻觉(hallucination)问题。具体来说,现有方法(如Cap3D)通过将3D对象渲染成2D视图并使用预训练的模型进行描述生成,但这种方法有时会生成不准确和幻觉信息,这可能会影响模型训练的质量。论文中指出,问题的关键在于某些渲染视图(rendered views)是非典型的,它们与标准图像描述模型的训练数据有所偏离,从而导致幻觉的发生。
为了解决这个问题,论文提出了一个名为DiffuRank的方法。DiffuRank利用预训练的文本到3D模型来评估3D对象与其2D渲染视图之间的对齐程度。通过这种方式,DiffuRank能够识别出与3D对象特征高度一致的视图,并通过对所有渲染视图进行排名,选择最顶部的视图来生成更准确和详细的描述。此外,论文还展示了DiffuRank在2D领域的适应性,通过将其应用于预训练的文本到图像模型,改进了视觉问答(Visual Question Answering)任务的性能。
论文如何解决这个问题?
为了解决3D对象描述中的幻觉问题,论文提出了一个名为DiffuRank的方法,该方法的核心步骤如下:
通过这种方法,DiffuRank能够选择那些更能反映3D对象本质特征的视图,从而生成更准确、更详细的字幕,并减少幻觉现象的发生。此外,论文还展示了DiffuRank在扩展到2D领域时的有效性,并在视觉问答任务中超越了CLIP模型的性能。
论文的主要内容:
这篇论文的主要内容可以总结如下:
这篇论文通过提出新的解决方案和广泛的实验验证,为提高3D对象描述的质量和可信度做出了重要贡献,并为未来的研究提供了新的方向。
3.FusionMamba: Efficient Image Fusion with State Space Model
标题: FusionMamba:基于状态空间模型的高效图像融合
作者:Siran Peng, Xiangyu Zhu, Haoyu Deng, Zhen Lei, Liang-Jian Deng
文章链接:https://arxiv.org/abs/2404.07932
摘要:
图像融合旨在通过将光谱信息有限的高分辨率图像和具有丰富光谱数据的低分辨率图像相结合,生成高分辨率的多/高光谱图像。目前基于深度学习 (DL) 的图像融合方法主要依靠 CNN 或 Transformer 来提取特征并合并不同类型的数据。虽然CNN是有效的,但它们的接受范围是有限的,限制了它们捕捉全球背景的能力。相反,变形金刚擅长学习全局信息,但受到二次复杂度的阻碍。幸运的是,国家空间模型(SSM)的最新进展,特别是曼巴模型,通过实现线性复杂性的全球意识,为这个问题提供了一个有希望的解决方案。然而,很少有人尝试探索SSM在信息融合中的潜力,而SSM在图像融合等领域是一项关键的能力。因此,我们提出了FusionMamba,一种高效图像融合的创新方法。我们的贡献主要集中在两个方面。首先,认识到来自不同来源的图像具有不同的属性,我们将 Mamba 块合并到两个 U 形网络中,呈现出一种以高效、独立和分层方式提取空间和光谱特征的新颖架构。其次,为了有效地结合空间和光谱信息,我们扩展了Mamba模块以适应双输入。这种扩展导致了一个名为 FusionMamba 块的新模块的创建,该模块的性能优于现有的融合技术,例如串联和交叉注意力。为了验证FusionMamba的有效性,我们对与三个图像融合任务相关的五个数据集进行了一系列实验。定量和定性评价结果表明,该方法实现了最先进的(SOTA)性能,凸显了FusionMamba的优越性。
这篇论文试图解决什么问题?
这篇论文试图解决的问题是如何高效地进行图像融合。图像融合的目标是将高分辨率的图像(具有有限的光谱信息)与低分辨率的图像(具有丰富的光谱数据)结合起来,生成一个高分辨率的多光谱或超光谱图像。当前基于深度学习的方法主要依赖于卷积神经网络(CNNs)或Transformers来提取特征和合并不同类型的数据。然而,CNNs虽然高效,但其感受野有限,限制了捕获全局上下文的能力;而Transformers虽然擅长学习全局信息,但受到其二阶复杂度的限制。为了解决这些问题,论文提出了FusionMamba,这是一种新颖的高效图像融合方法,它利用状态空间模型(State Space Model,SSM)特别是Mamba,通过线性复杂度实现全局感知。
具体来说,论文的主要贡献包括:
论文如何解决这个问题?
论文通过提出一种名为 FusionMamba 的新方法来解决图像融合的问题,具体解决方案包括以下几个关键步骤:
总结来说,FusionMamba方法通过结合最新的SSM技术和创新的网络结构设计,有效地解决了图像融合中的全局信息捕捉和计算效率问题。
论文的主要内容:
这篇论文的主要内容可以总结如下:
总体而言,FusionMamba通过结合SSM的优势,为图像融合领域提供了一种新的高效解决方案,并在多个数据集和任务上展示了其优越的性能。