每日学术速递1.15

AiCharm

发布于 2024-01-15 10:08:47

980

发布于 2024-01-15 10:08:47

文章被收录于专栏：AiCharm

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.N3-Mapping: Normal Guided Neural Non-Projective Signed Distance Fields for Large-scale 3D Mapping

标题：N 3 - 映射：用于大规模 3D 映射的法线引导神经非投影符号距离场

作者：Shuangfu Song, Junqiao Zhao, Kai Huang, Jiaye Lin, Chen Ye, Tiantian Feng

文章链接：https://arxiv.org/abs/2401.03412

摘要：

大规模环境中准确而密集的测绘对于各种机器人应用至关重要。最近，隐式神经符号距离场（SDF）在这项任务中取得了有希望的进展。然而，大多数现有方法采用距离数据的投影距离作为 SDF 监督，引入近似误差，从而降低测绘质量。为了解决这个问题，我们引入了 N3-Mapping，这是一种隐式神经映射系统，具有法向引导神经非投影符号距离场。具体来说，我们直接沿着表面法线而不是射线对点进行采样，以便从范围数据中获得更准确的非投影距离值。然后这些距离值用作监督来训练隐式映射。对于大规模映射，我们应用面向体素的滑动窗口机制来缓解有限内存占用的遗忘问题。此外，考虑到测量点云分布不均匀，设计了分层采样策略以提高训练效率。实验表明，与现有方法相比，我们的方法有效地减轻了 SDF 近似误差并实现了最先进的映射质量。

2.One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts

标题：一种统治一切的模型：通过文本提示实现医学图像的通用分割

作者：Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie

文章链接：https://arxiv.org/abs/2312.17183

项目代码：https://zhaoziheng.github.io/MedUniSeg/

摘要：

在这项研究中，我们专注于建立一个可以在文本提示驱动下对医疗场景中的任何事物进行分割的模型，称为 SAT。我们的主要贡献有三个方面：（i）在数据构建上，我们结合多个知识源构建多模态医学知识树；然后，我们通过从 31 个分割数据集中收集超过 11K 3D 医学图像扫描，并在视觉扫描和标签空间上进行仔细标准化，建立一个用于训练的大规模分割数据集；(ii)在模型训练上，我们制定了通用的分割模型，可以通过输入文本形式的医学术语来提示。我们提出了一个知识增强的表示学习框架，以及一系列针对大量数据集组合进行有效训练的策略；(iii) 在模型评估上，我们训练了一个只有 1.07M 个参数的 SAT-Nano，用文本提示分割 31 个不同的分割数据集，产生 362 个类别。我们从三个方面全面评估模型：按身体区域平均、按类别平均和按数据集平均，展示了与 36 个专业 nnUNet 相当的性能，即我们在每个数据集/子集上训练 nnUNet 模型，得到 36 个约 1000M 的 nnUNet 31个数据集的参数。我们将发布本报告中使用的所有代码和模型，即 SAT-Nano。此外，我们将在不久的将来提供 SAT-Ultra，它是在更多样化的数据集上使用更大尺寸的模型进行训练的。网页 URL：此 https URL。

3.Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers

标题：riplane 遇上高斯泼溅：使用 Transformers 进行快速且可推广的单视图 3D 重建

作者：Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Yan-Pei Cao, Song-Hai Zhang

文章链接：https://arxiv.org/abs/2312.09147

项目代码：https://zouzx.github.io/TriplaneGaussian/

摘要：

\生成模型的发展推动了单图像 3D 重建的最新进展。其中最突出的是基于分数蒸馏采样 (SDS) 的方法和 3D 域中扩散模型的适应。尽管取得了进步，但这些技术通常由于优化或渲染过程缓慢而面临限制，导致训练和优化时间过长。在本文中，我们介绍了一种用于单视图重建的新颖方法，该方法可通过前馈推理从单个图像有效生成 3D 模型。我们的方法利用两个基于变压器的网络，即点解码器和三平面解码器，使用混合三平面高斯中间表示来重建 3D 对象。这种混合表示达到了平衡，与隐式表示相比，实现了更快的渲染速度，同时提供了比显式表示更高的渲染质量。点解码器设计用于从单个图像生成点云，提供显式表示，然后三平面解码器利用该表示来查询每个点的高斯特征。这种设计选择解决了与直接回归显式 3D 高斯属性（其非结构性特征）相关的挑战。随后，3D 高斯由 MLP 解码，以便能够通过泼溅进行快速渲染。两种解码器都建立在可扩展的、基于 Transformer 的架构之上，并且已经在大规模 3D 数据集上进行了有效的训练。对合成数据集和真实世界图像进行的评估表明，与以前最先进的技术相比，我们的方法不仅实现了更高的质量，而且还确保了更快的运行时间。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-01-14，如有侵权请联系 cloudcommunity@tencent.com 删除

渲染