文章/答案/技术大牛

发布

他开发文生视频大模型，有望用于影视、内容生产等领域，未来计划实现可落地的通用多模态大模型

文章来源：企鹅号 - DeepTech深科技

只需输入一段文字，即刻生成高清视频。这是以 Sora 为代表的文生视频大模型，向世人展现出的独特魅力。（编者注：Sora 是一款由美国 AI 研究公司 OpenAI 于 2024 年 2 月推出的文生视频大模型，能够根据简短的文字输入，生成最长可达 60 秒的逼真视频。）

而继 Sora 发布两个月后，2024 年 4 月 27 日，一款中国版视频大模型 Vidu 应运而生[1]，视频生成领域迎来又一新成果。

该模型支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。生数科技联合创始人兼 CTO 鲍凡，则是它背后的主要发明者。

凭借带领团队开发文生视频大模型 Vidu，鲍凡成为 2023 年度《麻省理工科技评论》“35 岁以下科技创新 35 人”中国入选者之一。

提出可一键生成 16 秒高清内容的文生视频大模型，有望在影视、内容生产等领域发挥应用

基于 U-ViT 作为核心架构的扩散模型，鲍凡与团队得以开发出 Vidu。

该模型通过利用 Transformer 的可扩展性和长序列建模能力，可以打破文生视频时长较短的限制，不仅能够在单次生成中输出如上所说的时长为 16 秒的 1080P 视频，也可以生成单帧图像作为视频。

除此之外，Vidu 还拥有良好的动态性和连贯性，既能输出如现实生活一般的视频，也可以创造出富有想象力的内容。

具体来说：

首先，生成不同长度的视频。

其次，生成的视频具有很强的三维一致性。

再次，能够在一次生成中制作包含过渡的视频，并且这些过渡还能以引人入胜的方式连接两个不同的场景。

实际上，这些能力只是 Vidu 众多生成能力的其中一部分。它还能生成包含剪辑的视频，包括变焦、平移在内的摄像机运动视频，以及可以提升环境氛围的光影效果视频等等。

在验证模型效果的过程中，该团队将该模型与目前最强大的文生视频大模型 Sora 进行了对比，发现前者在生成视频的时长、连贯性和动态性方面，展示了与后者相当的性能。

显而易见，Vidu 有望在多个场景下发挥潜在的具体应用。

譬如：

其一，影视行业。

多机拍摄是电影或电视制作过程中常用的一种拍摄方式，如果能在这个过程中应用 Vidu，就可以实现只用一台摄像机拍摄，而其他机位的视频都借助这款大模型自动地推理出来。这能给原本较为复杂的影视制作流程带来巨大的效率提升。

其二，内容生产。

帮助用户随时随地产出想要的内容，为他们提供个性化的情绪体验。

比如，在 Vidu 的加持下，用户随时可以看到满足自己口味的视频内容，或随时将自己置身于一个充满新鲜感的风景中。

谈及 Vidu 的整个研发过程，鲍凡将其形容为“类似于造火箭的感觉”。

“和学术界做研究、发论文的过程不太一样，它是在解决一个大型的项目管理问题。为达成开发出视频生成大模型的目标，我们必须一一攻克包括算法、数据、工程在内的许多层面上的问题。”他说。

因此，在研发中，鲍凡每天都会花费大量时间思考，如何才能将这么多层面上的问题进行压缩。

“比如说，可以把两件事情合成一件事情来做，或者做了一件事情之后就没必要再做另外一件事情。”他解释说。

并且，因为一开始他们并未积累足够多的经验，所以不得不面临各种各样的不确定性，并需要用大量时间开展试错工作。

“由于巨大的不确定性，那段时间我处于一个压力比较大的状态，每天晚上在公司都靠吃泡面来解压。”鲍凡说。

义无反顾走上创业道路，致力于实现可落地的通用多模态大模型

和大部分学生一样，鲍凡也遵循标准的路径，完成了义务教育和高考。

“可能稍许不同的一点是，我比较早地形成了从基本原理出发思考事物的习惯。”鲍凡表示。

在他看来，这背后的原因可能体现在多个方面。

其一，他认为自己的脑容量有限，如果不将知识压缩成稠密的基本原理，就很难记下来。

其二，他所接受的家庭教育也扮演了很重要的角色。

“在我很小的时候，父亲就常和我说一些刁钻的数学题。虽然用简单的加减乘除就可以解决它们，但如果不从基本的原理出发进行思考，很容易出错。”鲍凡表示。

2014 年，他考入清华大学生命科学学院读本科，两年后转入计算机科学与技术系。2019 年获得计算机系的学士学位以后，他继续在母校攻读博士学位，师从张钹院士和朱军教授。

在这期间，他重点关注扩散模型这一研究方向，并在该领域做出了诸多具有国际影响力的成果，其中最具代表性的包括 Analytic-DPM、U-ViT 和 UniDiffuser。

“在博士三年级之前，我的研究兴趣集中在理论上，当时做了不少有关能量模型、分数匹配、学习理论和扩散模型等方面的理论研究。”鲍凡表示。

其中，在对扩散模型进行推理加速方面，他设计了一个无需训练的推理框架 Analytic-DPM[2]。据了解，相关论文获得机器学习顶级会议 ICLR 2022 杰出论文奖，所提出的方法也作为核心技术，被应用到 OpenAI 发布的超大规模图文生成系统 DALL·E 2 上。

“在博士三年级之后，我的研究方向收敛到了扩散模型及其应用。这是因为，我看到了扩散模型在生成式 AI 上的前景。所以，我不再只追求理论的优雅，同时也追求工程和实践上的优雅。”鲍凡表示。

基于此，他以通用的多模态大模型为目标，在网络架构、概率建模和大规模训练等方面，取得了一系列成果。

在网络架构方面，他提出了如上所说的 U-ViT 架构，为多模态的扩散模型打下架构基础。

实际上，在该架构提出之前，视频生成领域通常采用以 U-Net 为核心架构的扩散模型，能够支持构建较短时长（多为 4 秒）的文生视频大模型。

不过，U-Net 架构的瓶颈在于，当模型参数量和数据量达到一定水平时，就不会再出现明显的性能提升。

Transformer 架构则不然。基于这种架构的模型的参数量和数据量越大，最终能实现的模型效果就越好。

因此，鲍凡与合作者开发了结合 Diffusion 与 Transformer 的架构 U-ViT[3]，让扩散模型具备了可扩展性，并拥有了处理多模态数据的能力。

在概率建模方面，他基于 U-ViT 架构开发了多模态扩散模型 UniDiffuser，并完成了 U-ViT 架构的大规模可扩展性验证。

“当我们看到 UniDiffuser 模型的效果，能与开源生成式 AI 公司 Stability AI 发布的 Stable Diffusion 模型基本对标时，就已经得出 Diffusion 与 Transformer 融合的架构，有望在未来发挥出巨大潜力的判断。”鲍凡表示。

2023 年 3 月，鲍凡正式走上创业道路，联合创办了名为生数科技的多模态大模型公司。

谈及选择成为一名创业者的原因，他表示：“当时需要在创业和学术上选一条道路，而我的目标一直都是做出能够给人类社会带来深刻改变的大模型。那么，要想达成该目标，最短的路径就是创业，因此便义无反顾地朝着这条道路前进了。”

上文提到的 Vidu，既是他在该公司成立之后研发出的成果，又综合了他此前在扩散模型领域的全部努力。

之所以在公司成立初期，就决定开发这样一款文生视频大模型，鲍凡也有自己的考虑。

“从技术上讲，我觉得视频模型本身是 AI 领域甚至是全人类的一个重大突破。从商业化上讲，目前影视、动漫等行业拥有较大市场，因此视频生成本身就有较大商业价值。”他说。

当下及未来，他的研究目标是实现可落地的通用多模态大模型，希望能推动一个模型统一地理解各种各样模态的输入，以灵活地完成各种可控生成任务。

“我们目前初步达成了一些通用的可控性。比如，大部分视频相关的任务，包括视频风格化、视频编辑和修复等，都可以在一个模型里面完成。”鲍凡说。

当然，他也指出，现在已经可以完成的任务，远远无法覆盖所有的可控生成任务。

要想让模型变得更加通用，还需要具备能够处理包括文字、图像、视频和 3D 在内的各种模态的素材输入。

“如果模型能够良好地理解各种模态的素材输入，那么距离通用的可控性就不远了。”鲍凡表示。

目前，他正在推动实现这一目标。

参考资料：

1.F.,Bao,C.,Xiang,G.,Yue.et al.Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models.arXiv:2405.04233.https://doi.org/10.48550/arXiv.2405.04233

2.F.,Bao,C.,Li,J.,Zhu.et al.Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models.arXiv:2201.06503.https://doi.org/10.48550/arXiv.2201.06503

3.F.,Bao,S.Nie,K.,Xue.et al.All are Worth Words: A ViT Backbone for Diffusion Models.arXiv:2209.12152.https://doi.org/10.48550/arXiv.2209.12152

发表于: 2024-07-302024-07-30 16:30:41
原文链接：https://page.om.qq.com/page/OKe8McXn-UyQwbzSdCqFV3Vg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

他开发文生视频大模型，有望用于影视、内容生产等领域，未来计划实现可落地的通用多模态大模型

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐