每日学术速递10.9

AiCharm

发布于 2023-10-09 12:57:02

4290

文章被收录于专栏：AiCharmAiCharm

1.Leveraging Cutting Edge Deep Learning Based Image Matching for Reconstructing a Large Scene from Sparse Images(IJCAI 2023)

标题：利用基于深度学习的尖端图像匹配从稀疏图像重建大场景

作者：Georg Bökman, Johan Edstedt

文章链接：https://browse.arxiv.org/abs/2310.01092

摘要：

我们提出了 AISG-SLA 视觉定位挑战基准（IJCAI 2023）排名最高的解决方案，其任务是估计由安装在行驶通过城市场景的汽车上的摄像头顺序拍摄的图像之间的相对运动。为了匹配图像，我们使用最近基于深度学习的匹配器 RoMa。按顺序匹配图像对并根据 RoMa 采样的点对应关系估计相对运动已经给出了非常有竞争力的结果 - 在挑战基准上排名第三。为了改进估计，我们提取图像中的关键点，使用 RoMa 进行匹配，并使用 COLMAP 进行运动重建结构。我们选择最近的 DeDoDe 关键点是因为它们具有高重复性。此外，我们通过基于 DINOv2 图像检索匹配特定的非连续图像对来解决图像序列中的时间跳跃问题。这些改进产生了击败所有竞争对手的解决方案。我们还通过匹配手工挑选的非连续对，进一步提出了图像检索方法可获得的准确性的宽松上限。

2.GAIA-1: A Generative World Model for Autonomous Driving

标题：GAIA-1：自动驾驶的生成世界模型

作者：Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, Gianluca Corrado

文章链接：https://arxiv.org/abs/2309.17080

摘要：

自动驾驶有望对交通带来革命性的改进，但构建能够安全地应对现实世界场景的非结构化复杂性的系统仍然具有挑战性。一个关键问题在于有效预测随着世界的发展，车辆的行为可能出现的各种潜在结果。为了应对这一挑战，我们引入了 GAIA-1（“自主生成人工智能”），这是一种生成世界模型，利用视频、文本和动作输入来生成真实的驾驶场景，同时提供对自我车辆行为和场景的细粒度控制特征。我们的方法通过将输入映射到离散标记并预测序列中的下一个标记，将世界建模视为无监督序列建模问题。我们的模型的新兴特性包括学习高级结构和场景动态、上下文感知、泛化和对几何的理解。GAIA-1 学习表示的强大功能可以捕捉未来事件的期望，结合其生成真实样本的能力，为自动驾驶领域的创新提供了新的可能性，从而能够增强和加速自动驾驶技术的培训。

3.HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation

标题：HumanNorm：学习正态扩散模型以生成高质量且逼真的 3D 人体

作者：Xin Huang, Ruizhi Shao, Qi Zhang, Hongwen Zhang, Ying Feng, Yebin Liu, Qing Wang

文章链接：https://arxiv.org/abs/2310.01406

项目代码：https://humannorm.github.io/

摘要：

最近采用扩散模型的文本转 3D 方法在 3D 人类生成方面取得了重大进展。然而，由于文本到图像扩散模型的局限性，这些方法面临着挑战，该模型缺乏对 3D 结构的理解。因此，这些方法很难实现高质量的人类生成，从而产生平滑的几何形状和卡通般的外观。在本文中，我们观察到使用法线贴图微调文本到图像扩散模型使其能够适应文本到法线扩散模型，从而增强 3D 几何的 2D 感知，同时保留从大规模数据集学到的先验知识。因此，我们提出了 HumanNorm，这是一种通过学习法线扩散模型（包括法线自适应扩散模型和法线对齐扩散模型）来生成高质量且逼真的 3D 人体的新方法。法线自适应扩散模型可以生成与具有视图相关文本的提示相对应的高保真法线贴图。法线对齐扩散模型学习生成与法线贴图对齐的彩色图像，从而将物理几何细节转换为真实的外观。利用所提出的法线扩散模型，我们设计了渐进式几何生成策略和从粗到细的纹理生成策略，以提高 3D 人体生成的效率和鲁棒性。全面的实验证实了我们的方法能够生成具有复杂几何形状和逼真外观的 3D 人体，在几何形状和纹理质量方面显着优于现有的文本到 3D 方法。HumanNorm 的项目页面就是这个 https URL。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-10-08，如有侵权请联系 cloudcommunity@tencent.com 删除

自动驾驶