每日学术速递1.3

AiCharm

发布于 2024-01-04 12:20:05

1460

发布于 2024-01-04 12:20:05

文章被收录于专栏：AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.LangSplat: 3D Language Gaussian Splatting

标题：LangSplat：3D 语言高斯分布

作者：Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister

文章链接：https://arxiv.org/abs/2312.16084

项目代码：https://langsplat.github.io/

摘要：

人类生活在 3D 世界中，通常使用自然语言与 3D 场景进行交互。对 3D 语言字段进行建模以支持 3D 开放式语言查询最近受到越来越多的关注。本文介绍了 LangSplat，它构建了一个 3D 语言场，可以在 3D 空间内进行精确、高效的开放词汇查询。与在 NeRF 模型中建立 CLIP 语言嵌入的现有方法不同，LangSplat 通过利用 3D 高斯集合（每种编码语言特征都从 CLIP 中提取）来代表语言领域，从而推进了该领域的发展。通过采用基于图块的splatting技术来渲染语言特征，我们规避了NeRF固有的昂贵的渲染过程。LangSplat 不是直接学习 CLIP 嵌入，而是首先训练场景语言自动编码器，然后学习场景特定潜在空间上的语言特征，从而减轻显式建模带来的大量内存需求。现有方法难以应对不精确且模糊的 3D 语言领域，无法辨别对象之间的清晰边界。我们深入研究了这个问题，并提出使用 SAM 学习分层语义，从而消除了跨不同尺度广泛查询语言领域和 DINO 特征正则化的需要。对开放词汇 3D 对象定位和语义分割的大量实验表明，LangSplat 的性能明显优于之前最先进的方法 LERF。值得注意的是，LangSplat 非常高效，与分辨率为 1440 × 1080 的 LERF 相比，实现了 speed × 加速。

2.InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

标题：InternVL：扩大视觉基础模型并调整通用视觉语言任务

作者：Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Zhong Muyan, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai

文章链接：https://arxiv.org/abs/2312.14238

项目代码：https://github.com/OpenGVLab/InternVL

摘要：

大型语言模型 (LLM) 的指数级增长为多模式 AGI 系统开辟了无数可能性。然而，视觉和视觉语言基础模型（也是多模态 AGI 的关键要素）的进展并没有跟上法学硕士的步伐。在这项工作中，我们设计了一个大规模视觉语言基础模型（InternVL），它将视觉基础模型扩展到 60 亿个参数，并使用来自各个领域的网络规模图像文本数据逐步将其与大型语言模型对齐。来源。该模型可以广泛应用于视觉感知任务（例如图像级或像素级识别）、视觉语言任务（例如零样本图像/视频分类、零样本图像）并实现最先进的性能/视频文本检索，并与法学硕士链接以创建多模式对话系统。我们希望我们的研究能够为多模态大型模型的开发做出贡献。

3.VCoder: Versatile Vision Encoders for Multimodal Large Language Models

标题：VCoder：用于多模态大语言模型的多功能视觉编码器

作者：Jitesh Jain, Jianwei Yang, Humphrey Shi

文章链接：https://arxiv.org/abs/2312.14233

项目代码：https://github.com/SHI-Labs/VCoder

摘要：

人类拥有非凡的视觉感知能力，能够看到并理解所看到的事物，帮助他们理解视觉世界，进而理解理性。多模态大语言模型（MLLM）最近在视觉语言任务上取得了令人印象深刻的性能，从视觉问答和图像字幕到视觉推理和图像生成。然而，当提示识别或计数（感知）给定图像中的实体时，现有的 MLLM 系统会失败。为了开发用于感知和推理的精确 MLLM 系统，我们建议使用多功能视觉编码器 (VCoder) 作为多模态 LLM 的感知眼睛。我们向 VCoder 提供感知模式，例如分割或深度图，从而提高 MLLM 的感知能力。其次，我们利用 COCO 的图像和现成的视觉感知模型的输出来创建 COCO 分割文本 (COST) 数据集，用于在对象感知任务上训练和评估 MLLM。第三，我们引入了评估 MLLM 在 COST 数据集上的物体感知能力的指标。最后，我们提供了大量的实验证据，证明 VCoder 相对于现有的多模态 LLM（包括 GPT-4V）改进了对象级感知技能。我们开源数据集、代码和模型以促进研究。

喜欢的话，请给我个在看吧！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-01-03，如有侵权请联系 cloudcommunity@tencent.com 删除

对象