前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递1.11

每日学术速递1.11

作者头像
AiCharm
发布2024-01-14 21:00:56
1010
发布2024-01-14 21:00:56
举报
文章被收录于专栏:AiCharmAiCharm

1.ODTrack: Online Dense Temporal Token Learning for Visual Tracking

标题:ODTrack:用于视觉跟踪的在线密集时间标记学习

作者:Yaozong Zheng, Bineng Zhong, Qihua Liang, Zhiyi Mo, Shengping Zhang, Xianxian Li

文章链接:https://arxiv.org/abs/2401.01686

项目代码:https://github.com/GXNU-ZhongLab/ODTrack

摘要:

连续视频帧之间的在线上下文推理和关联对于感知视觉跟踪中的实例至关重要。然而,当前大多数表现最好的跟踪器通过离线模式持续依赖参考帧和搜索帧之间的稀疏时间关系。因此,它们只能在每个图像对内独立交互并建立有限的时间相关性。为了缓解上述问题,我们提出了一种简单、灵活且有效的视频级跟踪管道,名为 ODTrack,它以在线令牌传播方式密集关联视频帧的上下文关系。ODTrack接收任意长度的视频帧来捕获实例的时空轨迹关系,并将目标的区分特征(定位信息)压缩为令牌序列以实现帧与帧的关联。这种新的解决方案带来了以下好处:1)纯化后的令牌序列可以作为下一视频帧的推理提示,从而利用过去的信息来指导未来的推理;2)通过token序列的迭代传播,有效避免了复杂的在线更新策略,从而实现更高效的模型表示和计算。ODTrack 在七个基准测试中实现了新的 SOTA性能,同时以实时速度运行。

2.Tracking with Human-Intent Reasoning

标题:通过人类意图推理进行跟踪

作者:Jiawen Zhu, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Huchuan Lu, Yifeng Geng, Xuansong Xie

文章链接:https://arxiv.org/abs/2312.17448

项目代码:https://github.com/jiawen-zhu/TrackGPT

摘要:

感知建模的进步显着提高了对象跟踪的性能。然而,当前在初始帧中指定目标对象的方法是:1)使用框或掩模模板,或者2)提供明确的语言描述。这些方式很麻烦,并且不允许跟踪者具有自我推理能力。因此,这项工作提出了一个新的跟踪任务——指令跟踪,它涉及提供隐式跟踪指令,要求跟踪器在视频帧中自动执行跟踪。为了实现这一目标,我们研究了用于对象跟踪的大型视觉语言模型(LVLM)的知识和推理能力的集成。具体来说,我们提出了一种名为 TrackGPT 的跟踪器,它能够执行复杂的基于推理的跟踪。TrackGPT 首先使用 LVLM 来理解跟踪指令,并将要跟踪的目标的线索压缩为引用嵌入。然后感知组件根据嵌入生成跟踪结果。为了评估 TrackGPT 的性能,我们构建了一个名为 InsTrack 的指令跟踪基准测试,其中包含超过一千个指令视频对,用于指令调整和评估。实验表明,TrackGPT 在引用视频对象分割基准测试中实现了具有竞争力的性能,例如在 Refer-DAVIS 上获得了 66.5 J&F 的新的最先进性能。它还展示了新评估协议下指令跟踪的卓越性能。

3.En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data

标题:En3D:从 2D 合成数据雕刻 3D 人体的增强生成模型

作者:Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie

文章链接:https://arxiv.org/abs/2401.01173

项目代码:https://menyifang.github.io/projects/En3D/index.html?ref=aiartweekly

摘要:

我们推出 En3D,这是一种用于雕刻高质量 3D 人体头像的增强生成方案。与之前依赖于稀缺的 3D 数据集或有限的 2D 集合、不平衡的视角和不精确的姿势先验的作品不同,我们的方法旨在开发一种零样本 3D 生成方案,能够生成视觉逼真、几何准确且内容多样化的 3D 人类,而无需依赖于预先存在的 3D 或 2D 资产。为了应对这一挑战,我们引入了精心设计的工作流程,该工作流程可实现精确的物理建模,以从合成的 2D 数据中学习增强的 3D 生成模型。在推理过程中,我们集成了优化模块来弥合真实外观和粗糙 3D 形状之间的差距。具体来说,En3D 包括三个模块:3D 生成器,根据合成的平衡、多样化和结构化的人体图像,准确地模拟具有逼真外观的通用 3D 人体;几何雕塑家,使用多视图法线约束来增强复杂人体解剖学的形状质量;纹理模块利用语义 UV 分区和可微分光栅器,以保真度和可编辑性解开显式纹理贴图。实验结果表明,我们的方法在图像质量、几何精度和内容多样性方面显着优于先前的工作。我们还展示了我们生成的头像对于动画和编辑的适用性,以及我们的内容风格自由适应方法的可扩展性。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-01-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档