暂无搜索历史
图2 视频增强现实的整体框架。给定文本提示时,视频帧首先通过多尺度因果3D分词器压缩成一系列时空标记。每个帧由多尺度的残差映射表示,这些映射通过带有分块因果掩蔽...
图 1 Klear,这是一个统一的音视频生成框架,它可以在联合和单模态设置中提供高保真度、强大的语义和时间对齐以及可靠的指令遵循,并具有强大的 OOD 泛化能力...
论文链接:https://arxiv.org/abs/2601.03193 代码链接:https://github.com/Hungryyan1/UniCorn...
论文链接:https://arxiv.org/pdf/2512.23222 项目链接:https://kebii.github.io/UniMAGE/
论文链接:https://arxiv.org/abs/2601.02358 代码链接:https://github.com/SOTAMak1r/VINO-cod...
论文链接:https://arxiv.org/pdf/2512.25075 项目链接:https://zheninghuang.github.io/Space-...
文章链接:https://arxiv.org/pdf/2512.22525 项目链接:https://github.com/dvlab-research/Dr...
论文链接:https://arxiv.org/pdf/2512.23379 项目链接:https://soul-ailab.github.io/soulx-li...
图1:超越了mask-inpainting,X-Dub将视觉配音重新定义为丰富的上下文、全参照的视频对视频剪辑,即使在有遮挡和动态光照的挑战场景中,也能实现精准...
论文链接:https://arxiv.org/pdf/2512.23568 项目链接:https://github.com/jiaosiyuu/ThinkGen...
论文链接:https://arxiv.org/pdf/2512.22096 开源代码:https://github.com/stdstu12/YUME 工程...
图1 KlingAvatar 2.0生成生动、保持身份的数字人类,具备精准的摄像头控制、丰富的情感表达、高质量的动作以及精准的面部-唇部和音频同步。它实现了音频...
文章链接:https://arxiv.org/pdf/2512.11715 Project Page: https://weichow23.github.io...
论文地址:https://arxiv.org/pdf/2512.16900 项目主页:https://francis-rings.github.io/Flas...
在视频生成领域,如何精准地按照人类指令编辑视频一直是个难题。现有的方法要么依赖复杂的 Mask(掩码)导致无法统一模型,要么虽然统一但缺乏空间定位能力,导致编辑...
论文链接:https://arxiv.org/pdf/2512.16776 体验链接:https://app.klingai.com/global/omni/n...
文章链接:https://arxiv.org/pdf/2512.16093 代码链接: https://github.com/thu-ml/TurboDiff...
本工作考虑语言条件下的机器人操作任务。对于每个具身智能体,任务定义了动作 、观测 (视觉输入)、语言指令 以及机器人的本体感知 ,其中 分别表示动作空间、观...
论文链接:https://arxiv.org/pdf/2512.14614 项目链接:https://3d-models.hunyuan.tencent.com...
论文链接:https://arxiv.org/pdf/2512.11749 代码链接:https://github.com/KlingTeam/SVG-T2I ...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市