每日学术速递12.7

AiCharm

发布于 2023-12-13 14:10:05

1470

发布于 2023-12-13 14:10:05

文章被收录于专栏：AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

标题：TrackDiffusion：通过扩散模型生成多对象跟踪数据

作者：Pengxiang Li, Zhili Liu, Kai Chen, Lanqing Hong, Yunzhi Zhuge, Dit-Yan Yeung, Huchuan Lu, Xu Jia

文章链接：https://arxiv.org/abs/2312.00651

项目代码：https://kaichen1998.github.io/projects/trackdiffusion/

摘要：

扩散模型在为图像分类和目标检测等感知任务生成数据方面取得了突出的成果。然而，生成高质量跟踪序列（视频感知领域的一个关键方面）的潜力尚未得到充分研究。为了解决这个问题，我们提出了 TrackDiffusion，这是一种新颖的架构，旨在从 tracklet 生成连续的视频序列。TrackDiffusion 与传统的布局到图像 (L2I) 生成和复制粘贴合成的重大区别在于，通过使图像扩散模型能够包含动态和连续的跟踪轨迹，从而捕获复杂的运动细微差别并确保视频帧之间的实例一致性。我们首次证明生成的视频序列可用于训练多目标跟踪（MOT）系统，从而显着提高跟踪器性能。实验结果表明，我们的模型显着增强了生成的视频序列中的实例一致性，从而改善了感知指标。我们的方法在 YTVIS 数据集上的 TrackAP 中实现了 8.7 的改进，在 TrackAP 50 中实现了 11.8 的改进，强调了其重新定义 MOT 任务及其他任务的视频数据生成标准的潜力。

2.Real-Time Neural Rasterization for Large Scenes(ICCV 2023)

标题：大型场景的实时神经光栅化

作者：Jeffrey Yunfan Liu, Yun Chen, Ze Yang, Jingkang Wang, Sivabalan Manivasagam, Raquel Urtasun

文章链接：https://arxiv.org/abs/2311.05607

项目代码：https://waabi.ai/NeuRas/

摘要：

我们提出了一种用于大场景的真实实时小说视图合成（NVS）的新方法。现有的神经渲染方法可以生成逼真的结果，但主要适用于小规模场景（<50 平方米），难以处理大范围场景（>10000 平方米）。传统的基于图形的光栅化渲染对于大型场景来说速度很快，但缺乏真实感，并且需要昂贵的手动创建的资源。我们的方法结合了两全其美的方法，采用中等质量的支架网格作为输入，学习神经纹理场和着色器来建模依赖于视图的效果以增强真实感，同时仍然使用标准图形管道进行实时渲染。我们的方法优于现有的神经渲染方法，为大型自动驾驶和无人机场景提供至少 30 倍的更快渲染速度，并具有相当或更好的真实感。我们的工作是第一个实现大型现实世界场景实时渲染的工作。

3.Self-correcting LLM-controlled Diffusion Models

标题：自校正 LLM 控制的扩散模型

作者：Tsung-Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell

文章链接：https://arxiv.org/abs/2311.16090

摘要：

随着扩散模型的出现，文本到图像的生成取得了重大进展。尽管能够生成逼真的图像，但当前的文本到图像扩散模型仍然经常难以准确解释和遵循复杂的输入文本提示。与旨在尽最大努力生成图像的现有模型相比，我们引入了自校正 LLM 控制扩散（SLD）。SLD 是一个框架，它根据输入提示生成图像，评估其与提示的对齐情况，并对生成图像中的不准确之处进行自我纠正。在 LLM 控制器的控制下，SLD 将文本到图像的生成转变为迭代闭环过程，确保生成图像的正确性。SLD 不仅无需训练，还可以与 API 访问背后的扩散模型（例如 DALL-E 3）无缝集成，以进一步提升最先进的扩散模型的性能。实验结果表明，我们的方法可以纠正大多数不正确的生成，特别是在生成计算、属性绑定和空间关系方面。此外，通过简单地调整 LLM 的指令，SLD 就可以执行图像编辑任务，从而弥合文本到图像生成和图像编辑管道之间的差距。我们将使我们的代码可用于未来的研究和应用。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-07，如有侵权请联系 cloudcommunity@tencent.com 删除

渲染