前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >直接生成16秒高清视频 我国自研视频大模型Vidu在京发布

直接生成16秒高清视频 我国自研视频大模型Vidu在京发布

作者头像
万猫学社
发布2024-05-06 17:21:22
1180
发布2024-05-06 17:21:22
举报

今年初,全球人工智能领域掀起了一场关于文生视频大模型Sora的热议,这是一款仅需一段文字指令就能生成逼真视频的模型。最近,我国自主研发的另一款文生视频大模型Vidu在2024年中关村论坛年会上首次亮相,这款模型以其“长时长、高一致性、高动态性”的特性引发了广泛关注。

据悉,Vidu是由清华大学和北京生数科技有限公司联合研发的视频大模型,能够根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容。这款模型不仅能够模拟真实的物理世界,还具备丰富的想象力。

清华大学人工智能研究院副院长、生数科技首席科学家朱军说,目前国内的视频大模型生成的视频时长大多为4秒左右,而Vidu则能够一次性生成长达16秒的视频。他还强调,Vidu生成的视频画面连贯流畅,随着镜头的移动,人物和场景在时间和空间上都能保持高度一致性。

在动态表现力上,Vidu的能力超乎想象。它能够生成复杂且动态的镜头,不仅局限于简单的推进、拉近或移动等基础镜头效果。更值得一提的是,它能在一个画面内实现远景、近景、中景和特写等各种镜头的无缝切换,甚至能直接生成长镜头、追焦和转场等复杂效果。

朱军进一步介绍:“Vidu能够模拟真实的物理世界,创造出细节丰富且符合物理规律的场景,比如合理的光影效果、精细的人物表情等。它还能创造出深度丰富且复杂的超现实主义内容。”他还指出,由于Vidu采用了“一步到位”的生成方式,视频片段能从头到尾连续生成,避免了明显的插帧现象。

此外,Vidu还能生成如熊猫、龙等各种形象,点击下面链接可观看原视频

据了解,Vidu的技术突破来自于团队在机器学习和多模态大模型方面的长期积累。其核心技术架构早在2022年就已经由团队提出,并从此开始了持续的自主研发。朱军表示:“作为一款通用视觉模型,我们坚信,Vidu未来能够支持生成更多样化、更长时长的视频内容,探索各种生成任务。其灵活的架构也将兼容更广泛的模态,进一步推动多模态通用能力的边界。”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 万猫学社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档