每日学术速递12.31

AiCharm

发布于 2024-01-04 12:18:26

1740

发布于 2024-01-04 12:18:26

文章被收录于专栏：AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion

标题：Atlantis：通过稳定扩散实现水下深度估计

作者：Fan Zhang, Shaodi You, Yu Li, Ying Fu

文章链接：https://arxiv.org/abs/2312.12471

项目代码：https://github.com/zkawfanx/Atlantis

摘要：

近年来，单目深度估计在地面图像上取得了重大进展，这主要归功于深度学习的进步。然而，它仍然不足以用于水下场景，主要是因为数据稀缺。考虑到水中光衰减和后向散射的固有挑战，获取清晰的水下图像或精确的深度信息尤其困难且成本高昂。因此，基于学习的方法通常依赖于合成数据或转向无监督或自监督方法来缓解数据缺乏的情况。尽管如此，这些方法的性能通常受到领域差距和宽松约束的限制。在本文中，我们提出了一种使用准确的陆地深度数据生成逼真水下图像的新颖管道。这种方法有利于水下深度估计监督模型的训练，有效减少陆地和水下环境之间的性能差异。与之前仅将样式迁移应用于陆地图像而不改变场景内容的合成数据集相反，我们的方法通过创新的稳定扩散模型利用陆地深度数据，独特地创建充满活力的、不存在的水下场景。具体来说，我们引入了一个独特的 Depth2Underwater ControlNet，该网络针对专门准备的“{Underwater、Depth、Text”}数据三元组进行训练，用于此生成任务。我们新开发的数据集使陆地深度估计模型能够在未见过的水下图像上实现定量和定性的显着改进，超越陆地预训练模型。此外，水下场景深度精度的提高也有助于依赖深度图的水下图像恢复技术，进一步证明了我们的数据集的实用性。该数据集将在此 https URL 中提供。

2.Fluid Simulation on Neural Flow Maps

标题：神经流图上的流体模拟

作者：Yitong Deng, Hong-Xing Yu, Diyang Zhang, Jiajun Wu, Bo Zhu

文章链接：https://arxiv.org/abs/2312.14635

摘要：

我们引入了神经流图，这是一种新颖的模拟方法，它将新兴的隐式神经表示范式与基于流图理论的流体模拟结合起来，以实现对无粘流体现象的最先进的模拟。我们设计了一种新颖的混合神经场表示，即空间稀疏神经场（SSNF），它将小型神经网络与重叠、多分辨率和空间稀疏网格的金字塔融合在一起，以高精度紧凑地表示长期时空速度场。有了这个神经速度缓冲器，我们以机械对称的方式计算长期、双向流图及其雅可比行列式，以促进现有解决方案的精度大幅提高。这些长距离、双向流图可实现高平流精度和低耗散，从而促进高保真不可压缩流模拟，从而体现复杂的涡流结构。我们展示了神经流体模拟在各种具有挑战性的模拟场景中的功效，包括跳跃涡流、碰撞涡流、涡流重新连接以及移动障碍物和密度差异产生的涡流。我们的例子表明，在能量守恒、视觉复杂性、遵守实验观察以及保留详细涡旋结构方面，现有方法的性能有所提高。

3.Plan, Posture and Go: Towards Open-World Text-to-Motion Generation

标题：计划、姿势和行动：迈向开放世界的文本到动作生成

作者：Jinpeng Liu, Wenxun Dai, Chunyu Wang, Yiji Cheng, Yansong Tang, Xin Tong

文章链接：https://arxiv.org/abs/2312.14828

项目代码：https://moonsliu.github.io/Pro-Motion/

摘要：

传统的文本到运动生成方法通常在有限的文本到运动对上进行训练，这使得它们很难推广到开放世界场景。一些作品使用 CLIP 模型来对齐运动空间和文本空间，旨在从自然语言运动描述中生成运动。然而，它们仍然只能产生有限且不切实际的原地运动。为了解决这些问题，我们提出了一个名为 PRO-Motion 的分而治之的框架，它由三个模块组成：运动规划器、姿势扩散器和 go-diffuser。运动规划器指示大型语言模型 (LLM) 生成一系列描述目标运动中关键姿势的脚本。与自然语言不同，脚本可以按照非常简单的文本模板描述所有可能的姿势。这显着降低了姿势扩散器的复杂性，将脚本转换为姿势，为开放世界的生成铺平了道路。最后，作为另一个扩散模型实现的 go-diffuser 可以估计所有姿势的全身平移和旋转，从而产生逼真的运动。实验结果表明了我们的方法相对于其他同行的优越性，并证明了其从复杂的开放世界提示（例如“体验深刻的快乐感”）中生成多样化且逼真的动作的能力。项目页面可通过此 https URL 获取。

喜欢的话，请给我个在看吧！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-31，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习