每日学术速递4.13(全新改版)

AiCharm

发布于 2024-04-16 16:19:50

1850

发布于 2024-04-16 16:19:50

文章被收录于专栏：AiCharm

1.Connecting NeRFs, Images, and Text

标题：连接 NeRF、图像和文本

作者：Francesco Ballerini, Pierluigi Zama Ramirez, Roberto Mirabella, Samuele Salti, Luigi Di Stefano

文章链接：https://arxiv.org/abs/2404.07993

项目代码：https://cvlab-unibo.github.io/clip2nerf

摘要：

神经辐射场（NeRF）已成为表示 3D 场景和对象的标准框架，为信息交换和存储引入了一种新颖的数据类型。同时，文本和图像数据的多模态表示学习也取得了重大进展。本文探讨了一种新的研究方向，旨在将NeRF模态与其他模态联系起来，类似于图像和文本的既定方法。为此，我们提出了一个简单的框架，该框架利用用于 NeRF 表示的预训练模型以及用于文本和图像处理的多模态模型。我们的框架学习 NeRF 嵌入与从相应图像和文本获得的嵌入之间的双向映射。这种映射解锁了几个新颖且有用的应用，包括 NeRF 零样本分类和从图像或文本中检索 NeRF。

这篇论文试图解决什么问题？

这篇论文探索了一个新的研究方向，旨在将神经辐射场（NeRFs）与其他模态（如图像和文本）相连接。具体来说，它提出了一个简单的框架，利用预训练的NeRF表示模型和多模态文本和图像处理模型，学习NeRF嵌入与对应图像和文本嵌入之间的双向映射。这一映射能够开启多个新颖且有用的应用，包括基于NeRF权重的零样本分类（zero-shot classification）和从图像或文本中检索NeRF。此外，该框架还能够从图像或文本生成全新的NeRF。

论文的主要贡献包括：

首次研究将NeRF与图像和文本相连接的问题。
提出了第一个实现这一目标的框架，该方法易于训练，只需要学习两个简单的多层感知机（MLPs）。
该框架解锁了许多有趣的应用，例如仅通过处理NeRF的网络权重进行零样本分类，以及从图像或文本中检索NeRF。
提出了一种技术，使得该模型在仅使用合成数据训练时也能在真实图像上表现良好。

论文如何解决这个问题？

论文提出了一个框架来连接NeRF、图像和文本，具体解决方案包括以下几个关键步骤：

预训练模型的使用：
- 论文利用预训练的nf2vec编码器来嵌入NeRF，并将其冻结，以此从NeRF中提取紧凑嵌入表示。
- 使用预训练的CLIP模型来从图像和文本中提取多模态嵌入表示。
特征映射网络：
- 设计了两个简单的多层感知机（MLP），称为clip2nerf和nerf2clip，用于在nf2vec嵌入和CLIP嵌入之间进行映射。
- clip2nerf用于将CLIP嵌入映射到nf2vec嵌入，而nerf2clip执行相反方向的映射。
训练映射网络：
- 通过最大化NeRF嵌入和对应图像或文本嵌入之间的余弦相似度来训练这两个MLP网络。
- 使用来自ShapeNetRender数据集的NeRF和视图来训练网络，其中视图可以是用于训练NeRF的真实图像或由NeRF渲染的图像。
零样本分类：
- 通过nerf2clip网络，将NeRF嵌入转换为文本嵌入，然后使用CLIP模型进行分类，实现零样本分类。
NeRF检索：
- 构建一个NeRF嵌入的图库，使用CLIP模型从给定的文本或图像查询中生成嵌入，并通过clip2nerf网络进行处理，以预测NeRF嵌入。
- 应用最近邻搜索（NN search）在图库中找到最接近的嵌入，实现从文本或图像到NeRF的检索。
NeRF生成：
- 利用nf2vec解码器和CLIP图像或文本编码器生成新的NeRF视图，通过嵌入转换实现从图像或文本生成NeRF。
适应真实图像：
- 为了解决从合成图像到真实图像的域偏移问题，论文提出了一种基于ControlNet的条件生成方法来适应真实图像，并提高模型在真实图像上的性能。

通过这些步骤，论文成功地展示了其框架在多个任务上的应用，包括零样本分类、图像和文本检索，以及新视图的生成。此外，论文还提出了一种适应技术，使得模型能够在仅使用合成数据进行训练的情况下，也能在真实图像上表现良好。

论文的主要内容：

这篇论文的主要内容可以总结如下：

问题定义：论文旨在探索如何将神经辐射场（NeRFs）与图像和文本等其他模态相连接，以便利用预训练的多模态模型来处理NeRF数据。
方法提出：提出了一个简单的框架，该框架使用预训练的nf2vec模型来嵌入NeRF，并利用多模态CLIP模型来处理图像和文本。框架的核心是两个多层感知机（MLP）网络，clip2nerf 和 nerf2clip，用于在不同模态的嵌入之间进行双向映射。
应用场景：通过学习这些映射，论文展示了多种新颖的应用，包括：
- 零样本NeRF分类：仅使用NeRF的网络权重进行分类。
- NeRF检索：从图像或文本中检索匹配的NeRF。
- NeRF生成：从图像或文本生成新的NeRF。
实验验证：论文通过一系列实验验证了框架的有效性，包括零样本分类、图像和文本检索，以及适应真实图像的适应性实验。
结果分析：实验结果表明，所提出的框架在多个任务上取得了与现有基线方法相当或更好的性能，尤其是在零样本分类和真实图像检索方面。
未来方向：论文讨论了可能的局限性和未来的研究方向，包括扩展到真实世界的NeRF、探索共享潜在空间的学习、提高模型的泛化能力和计算效率等。

总体而言，这篇论文为NeRF与多模态数据的交互提供了一个新的视角，并展示了通过映射不同模态嵌入来实现多种应用的潜力。

2.View Selection for 3D Captioning via Diffusion Rankin

标题：通过扩散排名查看 3D 字幕的选择

作者：Tiange Luo, Justin Johnson, Honglak Lee

文章链接：https://arxiv.org/abs/2304.05977

项目代码：https://huggingface.co/datasets/tiange/Cap3D

摘要：

可扩展的注释方法对于构建广泛的 3D 文本数据集至关重要，从而促进更广泛的应用。然而，现有方法有时会导致产生幻觉字幕，从而影响字幕质量。本文探讨了 3D 对象字幕中的幻觉问题，重点介绍了 Cap3D 方法，该方法使用预训练模型将 3D 对象渲染为 2D 视图以进行字幕。我们指出了一个主要挑战：3D对象的某些渲染视图是非典型的，偏离了标准图像字幕模型的训练数据并导致幻觉。为了解决这个问题，我们提出了 DiffuRank，这是一种利用预训练的文本到 3D 模型来评估 3D 对象与其 2D 渲染视图之间的对齐方式的方法，其中高度对齐的视图紧密地代表了对象的特征。通过对所有渲染的视图进行排名并将排名靠前的视图输入 GPT4-Vision，我们提高了字幕的准确性和细节，能够校正 Cap3D 数据集中的 200k 字幕，并将其扩展到 Objaverse 和 Objaverse-XL 数据集中的 100 万个字幕。此外，我们通过将 DiffuRank 应用于视觉问答任务的预训练文本到图像模型来展示其适应性，其中它的性能优于 CLIP 模型。

这篇论文试图解决什么问题？

这篇论文试图解决的问题是在3D对象描述（3D captioning）任务中存在的幻觉（hallucination）问题。具体来说，现有方法（如Cap3D）通过将3D对象渲染成2D视图并使用预训练的模型进行描述生成，但这种方法有时会生成不准确和幻觉信息，这可能会影响模型训练的质量。论文中指出，问题的关键在于某些渲染视图（rendered views）是非典型的，它们与标准图像描述模型的训练数据有所偏离，从而导致幻觉的发生。

为了解决这个问题，论文提出了一个名为DiffuRank的方法。DiffuRank利用预训练的文本到3D模型来评估3D对象与其2D渲染视图之间的对齐程度。通过这种方式，DiffuRank能够识别出与3D对象特征高度一致的视图，并通过对所有渲染视图进行排名，选择最顶部的视图来生成更准确和详细的描述。此外，论文还展示了DiffuRank在2D领域的适应性，通过将其应用于预训练的文本到图像模型，改进了视觉问答（Visual Question Answering）任务的性能。

论文如何解决这个问题？

为了解决3D对象描述中的幻觉问题，论文提出了一个名为DiffuRank的方法，该方法的核心步骤如下：

渲染多个视图：首先，对于给定的3D对象，使用渲染程序（如Blender）生成一组2D视图。
生成候选字幕：对于每个渲染视图，使用基于图像的字幕模型（如BLIP2）生成一组候选字幕。
评估字幕与3D对象的对齐：利用预训练的文本到3D扩散模型（如Shap·E），评估每个视图的字幕与3D对象特征之间的对齐程度。这一步骤涉及计算字幕与3D对象特征之间的平均损失，以此来估计它们之间的对齐程度。
排名视图：根据上述对齐程度的评估，对所有渲染视图进行排名，选择对齐程度最高的视图。
生成最终字幕：将排名最高的视图（在论文中是前6个）输入到GPT4-Vision等视觉-语言模型中，生成最终的字幕。

通过这种方法，DiffuRank能够选择那些更能反映3D对象本质特征的视图，从而生成更准确、更详细的字幕，并减少幻觉现象的发生。此外，论文还展示了DiffuRank在扩展到2D领域时的有效性，并在视觉问答任务中超越了CLIP模型的性能。

论文的主要内容：

这篇论文的主要内容可以总结如下：

问题定义：论文识别了3D对象描述任务中的一个关键问题，即现有方法（如Cap3D）可能导致生成带有幻觉（hallucination）的描述，这可能会影响模型训练的质量。
方法提出：为了解决这个问题，论文提出了一个名为DiffuRank的新方法。DiffuRank通过使用预训练的文本到3D模型来评估3D对象和其2D渲染视图之间的对齐程度，从而选择最能代表对象特征的视图。
实验验证：通过一系列实验，包括人类评估研究和Text-to-3D模型的微调实验，论文证明了DiffuRank能够生成更准确、更详细的描述，并减少了幻觉现象。
应用扩展：论文还展示了DiffuRank在2D领域的适应性，将其应用于视觉问答（VQA）任务，并在某些情况下超越了CLIP模型的性能。
未来工作：论文讨论了未来的研究方向，包括改进文本到3D扩散模型、扩展到更多的3D对象、提高计算效率等。
贡献总结：论文的贡献包括修正了Cap3D数据集中的大约200k条描述、扩展了Cap3D数据集到1M条3D-文本对，以及提出了一个能够有效评估3D对象和2D图像对齐程度的通用框架DiffuRank。

这篇论文通过提出新的解决方案和广泛的实验验证，为提高3D对象描述的质量和可信度做出了重要贡献，并为未来的研究提供了新的方向。

3.FusionMamba: Efficient Image Fusion with State Space Model

标题： FusionMamba：基于状态空间模型的高效图像融合

作者：Siran Peng, Xiangyu Zhu, Haoyu Deng, Zhen Lei, Liang-Jian Deng

文章链接：https://arxiv.org/abs/2404.07932

摘要：

图像融合旨在通过将光谱信息有限的高分辨率图像和具有丰富光谱数据的低分辨率图像相结合，生成高分辨率的多/高光谱图像。目前基于深度学习（DL）的图像融合方法主要依靠 CNN 或 Transformer 来提取特征并合并不同类型的数据。虽然CNN是有效的，但它们的接受范围是有限的，限制了它们捕捉全球背景的能力。相反，变形金刚擅长学习全局信息，但受到二次复杂度的阻碍。幸运的是，国家空间模型（SSM）的最新进展，特别是曼巴模型，通过实现线性复杂性的全球意识，为这个问题提供了一个有希望的解决方案。然而，很少有人尝试探索SSM在信息融合中的潜力，而SSM在图像融合等领域是一项关键的能力。因此，我们提出了FusionMamba，一种高效图像融合的创新方法。我们的贡献主要集中在两个方面。首先，认识到来自不同来源的图像具有不同的属性，我们将 Mamba 块合并到两个 U 形网络中，呈现出一种以高效、独立和分层方式提取空间和光谱特征的新颖架构。其次，为了有效地结合空间和光谱信息，我们扩展了Mamba模块以适应双输入。这种扩展导致了一个名为 FusionMamba 块的新模块的创建，该模块的性能优于现有的融合技术，例如串联和交叉注意力。为了验证FusionMamba的有效性，我们对与三个图像融合任务相关的五个数据集进行了一系列实验。定量和定性评价结果表明，该方法实现了最先进的（SOTA）性能，凸显了FusionMamba的优越性。

这篇论文试图解决什么问题？

这篇论文试图解决的问题是如何高效地进行图像融合。图像融合的目标是将高分辨率的图像（具有有限的光谱信息）与低分辨率的图像（具有丰富的光谱数据）结合起来，生成一个高分辨率的多光谱或超光谱图像。当前基于深度学习的方法主要依赖于卷积神经网络（CNNs）或Transformers来提取特征和合并不同类型的数据。然而，CNNs虽然高效，但其感受野有限，限制了捕获全局上下文的能力；而Transformers虽然擅长学习全局信息，但受到其二阶复杂度的限制。为了解决这些问题，论文提出了FusionMamba，这是一种新颖的高效图像融合方法，它利用状态空间模型（State Space Model，SSM）特别是Mamba，通过线性复杂度实现全局感知。

具体来说，论文的主要贡献包括：

通过将Mamba模块整合到两个U形网络（空间U-Net和光谱U-Net）中，提出了一种新的架构，以高效、独立和分层的方式提取空间和光谱特征。
为了有效地结合空间和光谱信息，扩展了Mamba模块以支持双输入，创建了一个新的模块，称为FusionMamba模块，它在融合技术上超越了现有的技术，如拼接和交叉注意力。
通过在五个数据集上进行一系列实验，验证了FusionMamba在三项图像融合任务上的有效性，定量和定性评估结果表明该方法达到了最先进的性能，突显了FusionMamba的优越性。

论文如何解决这个问题？

论文通过提出一种名为 FusionMamba 的新方法来解决图像融合的问题，具体解决方案包括以下几个关键步骤：

双U形网络结构：论文提出了一个包含两个U形网络的结构，即空间U-Net和光谱U-Net。空间U-Net用于从高分辨率图像（如全色图像）中提取空间特征，而光谱U-Net用于从低分辨率图像（如多光谱或超光谱图像）中捕获光谱特征。这种结构允许独立和分层地学习空间和光谱信息。
Mamba模块的应用：在两个U形网络中，论文将Mamba模块用于特征提取。Mamba是基于状态空间模型（SSM）的一种新型模块，能够有效地捕捉全局信息，同时保持线性的计算复杂度。
FusionMamba模块的创新：为了有效地融合空间和光谱信息，论文扩展了Mamba模块，创建了一个新的模块——FusionMamba模块。这个模块能够处理双输入，将空间特征和光谱特征进行有效整合。
实验验证：论文通过在五个数据集上进行实验，对三种不同的图像融合任务（pansharpening、hyperspectral pansharpening 和 hyperspectral image super-resolution）进行了验证。实验结果表明，FusionMamba在定量和定性评估方面均达到了最先进的性能。
效率和性能的平衡：FusionMamba通过使用Mamba和FusionMamba模块，实现了在保持较低计算复杂度的同时，提取和融合高质量的特征，解决了以往方法中全局感知和计算效率之间的矛盾。

总结来说，FusionMamba方法通过结合最新的SSM技术和创新的网络结构设计，有效地解决了图像融合中的全局信息捕捉和计算效率问题。

论文的主要内容：

这篇论文的主要内容可以总结如下：

问题定义：论文旨在解决图像融合问题，即如何有效地结合高分辨率图像（有限光谱信息）和低分辨率图像（丰富光谱数据）以生成具有高分辨率和丰富光谱信息的图像。
技术背景：当前的深度学习方法，如CNNs和Transformers，在图像融合任务中存在局限性，如CNNs的感受野有限，Transformers的计算复杂度高。
方法提出：论文提出了FusionMamba，一种基于状态空间模型（SSM）的新型图像融合方法。FusionMamba通过两个U形网络（空间U-Net和光谱U-Net）独立提取空间和光谱特征，并使用扩展的Mamba模块（FusionMamba模块）进行特征融合。
实验验证：论文在三个图像融合任务上进行了实验，包括pansharpening、hyperspectral pansharpening和hyperspectral image super-resolution，使用五个数据集验证了FusionMamba的有效性。实验结果表明，FusionMamba在定量和定性评估方面均达到了最先进的性能。
贡献总结：论文的主要贡献在于提出了一种新的高效图像融合架构，能够有效地学习空间和光谱特征，并通过FusionMamba模块实现了特征的高效融合。
未来方向：论文还指出了一些可能的未来研究方向，包括多模态融合、实时处理、模型压缩和加速、自适应特征融合等。

总体而言，FusionMamba通过结合SSM的优势，为图像融合领域提供了一种新的高效解决方案，并在多个数据集和任务上展示了其优越的性能。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-04-13，如有侵权请联系 cloudcommunity@tencent.com 删除

数据