6月6日,国内短视频平台快手宣布推出了一款名为“可灵(Kling)”的视频生成大模型。这一由快手AI团队自研的创新成果,标志着我国在AI视频创作领域迈出了重要一步。可灵大模型具备多种优势,例如能够生成大幅度的合理运动,模拟物理世界的特性,以及强大的概念组合能力和想象力。
"可灵"这一创新技术,仅需通过文本输入,便能生成长达2分钟、1080P高清、每秒30帧的流畅视频。在色彩呈现、视频清晰度、动作连贯性以及对文本语义的精准理解等方面,"可灵"足以与OpenAI的Sora相媲美,并且还具备了模拟真实物理世界的技术特性。
在技术方面,可灵采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动。这意味着它不仅能够生成较大幅度的运动,而且这些运动更符合客观运动规律。例如,在官方给出的视频范例中,一位宇航员在月球上奔跑,随着镜头慢慢抬升,宇航员的步态和影子都能保持合理恰当。
此外,可灵大模型能够模拟真实物理世界的特性,如光影反射、流体运动、与物理世界的交互等。在一段“小男孩吃汉堡”的视频中,当男孩一口咬下去时,汉堡出现了一个大大的缺口,并在视频中一直保持。
可灵AI创新玩法--表情身体驱动
这是可灵大模型基于自研的3D人脸和人体重建技术,结合背景稳定性和重定向模块,实现表情肢体全驱动技术,仅需一张全身照片结合模板动作,即可体验生动的“唱跳”玩法
"可灵" AI视频大模型的优势亮点汇总:
1. 流畅合理的运动模拟:
"可灵"运用创新的3D时空联合注意力机制,精确捕捉并再现视频中的复杂时空动态,生成视频中大幅度的运动不仅自然,而且严格遵循物理运动法则。
2. 长达两分钟的高清视频输出:
借助先进的基础设施、优化的推理流程和灵活的架构设计,"可灵"能够生成长达两分钟、每秒30帧的流畅视频,保证了观看体验的连贯性和高质量。
3. 真实物理特性的模拟:
凭借自研模型架构和Scaling Law的强大建模能力,"可灵"能够逼真地模拟现实世界的物理现象,如光影效果、流体运动等,确保视频内容符合自然界的物理规律。
4. 概念组合与创意转化的能力:
"可灵"深刻理解文本到视频的语义转换,结合Diffusion Transformer架构的先进技术,将用户的想象转化为栩栩如生的视觉画面,甚至能够创造出超脱现实的新奇场景。
5. 电影级画质视频生成:
利用自研的3D VAE技术,"可灵"能够制作出1080p高分辨率的视频,无论是宏伟的广角画面还是精致的细节特写,都能以电影级的画质生动呈现。
6. 灵活的视频宽高比支持:
"可灵"采用了灵活的可变分辨率训练策略,使得在视频生成过程中能够轻松适应不同的宽高比需求,满足多样化场景下的视频创作与应用。
通过这些显著优势,"可灵"不仅为视频创作带来了前所未有的便捷和高效,也开辟了AI视频生成领域的新天地。
可灵大模型已在快手旗下的快影App开放邀测体验,支持创作者申请并体验其最新的文生视频功能。随着可灵大模型的发布,快手表示将持续加速大模型的研发与应用,带来更加多元的AI创作与互动体验。
可灵视频生成大模型的发布,不仅为快手带来了新的竞争优势,也为整个AI创作领域注入了新的活力。我们期待着这一创新技术在未来的广泛应用,为用户带来更多精彩纷呈的视频内容。
领取专属 10元无门槛券
私享最新 技术干货