前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >阿里5.2kStar给Sora配音的EMO音视频项目开源了

阿里5.2kStar给Sora配音的EMO音视频项目开源了

作者头像
疯狂的KK
发布2024-03-07 16:07:36
3010
发布2024-03-07 16:07:36
举报
文章被收录于专栏:Java项目实战Java项目实战

阿里EMO项目开源了,但是是PPT!!!但在其项目页面仍然是一个不错的表现。

继Anyone开源PPT后,阿里人像视频项目再次开源了PPT。github提了156个issues,一半以上全是骂娘的。

以下视频为阿里官方项目视频

其仓库主页大部分项目都是空代码的

就连13.5Kstar的项目也是骂娘

阿里巴巴集团智能计算研究院的研究人员开发了一个名为EMO(Emote Portrait Alive)的框架。这是一个音频驱动的AI肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。该系统能够准确地捕捉到人类表情的微妙差异和个体面部风格的多样性,从而生成高度逼真和富有表现力的动画。

EMO功能

EMO独具特色,它能够通过输入的音频如对话或歌声,直接生成相应的视频内容。这一过程中,无需依赖任何预先录制的视频片段或3D面部模型,展现了其高度的自主性和创新性。

EMO生成的视频不仅内容丰富,而且具有极高的表现力。它能够精准捕捉并再现人类面部表情的细微变化,包括那些难以察觉的微表情。同时,视频中的头部运动与音频节奏完美匹配,增强了视频的整体观赏性和真实感。

在视频生成过程中,EMO确保了每一帧之间的过渡都自然且流畅。这有效避免了面部扭曲、帧间抖动等常见问题,从而显著提升了视频的整体质量和观看体验。

借助先进的FrameEncoding模块,EMO能够在视频生成过程中始终保持角色身份的一致性。这意味着无论视频内容如何变化,角色的外观始终与输入的参考图像保持一致,增强了视频的连贯性和真实感。

为了提高视频生成的稳定性,EMO采用了多种控制机制,包括速度控制器和面部区域控制器等。这些机制有效避免了视频崩溃等问题,确保了视频生成的顺利进行。

EMO能够根据输入音频的长度生成任意时长的视频,这一特点为用户提供了极大的创作空间。无论是短视频还是长片,EMO都能轻松应对,满足用户的不同需求。

EMO的训练数据集涵盖了多种语言和风格,这使得它能够轻松适应不同的文化和艺术风格。无论是中文还是英文,无论是现实主义还是动漫、3D风格,EMO都能生成符合要求的视频内容,展现了其广泛的适用性和强大的跨风格能力。

架构原理

输入准备

用户需提供目标角色的静态肖像图像和相应的音频输入,如说话或唱歌的声音。这些资料构成视频生成的基础。

特征提取

利用与主网络结构相似的ReferenceNet,从参考图像中提取关键特征,专注于捕捉图像细节。

音频处理

通过预训练的音频编码器处理音频输入,提取出包含节奏、音调和发音等特征,这些特征将用于控制视频中角色的面部表情和头部动作。

扩散过程

主网络在扩散过程中接收多帧噪声,逐步去噪生成连续视频帧。这一过程依赖于Reference-Attention和Audio-Attention两种注意力机制,分别用于维持角色一致性和调节动作。

时间模块

EMO采用时间模块处理时间维度,通过自注意力机制调整动作速度,确保视频动态内容的连贯性和一致性。

面部定位和速度控制

为保证角色动作的稳定性和可控性,EMO结合面部定位器和速度层。面部定位器通过卷积层编码面部区域,而速度层则控制头部动作的速度和频率。

训练策略

EMO的训练分为图像预训练、视频训练和速度层集成三个阶段。图像预训练阶段,主网络和ReferenceNet学习单帧图像;视频训练阶段,加入时间模块和音频层处理连续帧;速度层集成阶段,专注于训练时间模块和速度层,以强化音频驱动角色动作的能力。

生成视频

在推理阶段,EMO运用DDIM采样算法,通过迭代去噪过程,生成与输入音频同步的肖像视频片段。

代码语言:javascript
复制
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
arXiv研究论文:https://arxiv.org/abs/2402.17485
GitHub:https://github.com/HumanAIGC/EMO
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赵KK日常技术记录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 输入准备
  • 特征提取
  • 音频处理
  • 扩散过程
  • 时间模块
  • 面部定位和速度控制
  • 训练策略
  • 生成视频
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档