前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Latte专场:深度解析视频生成与训练技术的最新进展

Latte专场:深度解析视频生成与训练技术的最新进展

作者头像
OpenMMLab 官方账号
发布2024-04-14 08:55:55
2250
发布2024-04-14 08:55:55
举报
文章被收录于专栏:OpenMMLabOpenMMLab

内容详情

视频生成技术:从 GAN 到 Diffusion Model

本次分享将聚焦于基于机器学习的视频生成这一内容,旨在梳理其从 GAN 到 Diffusion Model 的发展演变。讲者将深入探讨从 DCGAN 问世以来至 Stable Diffusion,以及如今的 DiT 技术下,视频生成模型的设计思想和代表工作。

视频生成技术的发展:从 GAN 至 Diffusion Model

首先, 讲者将带大家回顾整个视频生成的发展历史,并探讨视频生成研究中所面临的挑战。随后,讲者会介绍基于 GAN 的视频生成模型设计方法以及所能达到的能力。

基于 GAN 的视频生成

接下来,讲者会重点讲解基于 Diffusion Model 的视频生成技术,并通过 Vchitect 视频生成大模型,向大家展示基于扩散模型的设计与应用,如文生视频,图生视频,定制化生成视频等,同时也会探讨目前存在的一些问题。

书生筑梦(Vchitect) 视频生成大模型

最后,会和大家介绍一下最新的文生视频 DiT 模型 -- Latte,并展望视频生成发展的未来。

视频 DiT 模型 -- Latte

XTuner 长序列训练解决方案

及其在 Latte 中的应用

在生成式 AI 领域,长文档摘要和视频生成等任务都需要模型具有超长上下文的能力。如何训练超长上下文的模型,既是生成式 AI 算法领域的研究热点,也是 AI Infra 领域的难点。

随着 AI 模型参数量的不断增大,为了能够训练超长上下文,通常需要使用一些复杂的并行策略,如 Nvidia Megatron, DeepSpeed Ulysses 等工作。这些工作虽然解决了超长上下文的训练问题,但需要开发者具有一定的 AI Infra 的知识,对生成式 AI 的研究人员很不友好。

为了让研究人员能够更加便捷地训练超长上下文模型,促进生成式 AI 领域的发展,XTuner 开发了一套超长上文训练解决方案,研究人员在自己的项目中,只需加入几行代码,就可以训练超长上下文的模型,本次分享将围绕 XTuner 长序列训练解决方案及其在 Latte 中的应用展开。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档