前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2D虚拟数字人如何实现人物表达

2D虚拟数字人如何实现人物表达

作者头像
产品言语
发布2023-09-09 08:52:58
1.3K0
发布2023-09-09 08:52:58
举报
文章被收录于专栏:产品笔记

首先我们了解到虚拟数字人根据人物图形资源的维度,数字人可以分为2D和3D两大类。2D数字人从外形上可以分为2D真人和2D卡通。

在《2020 年虚拟数字人发展白皮书》中,在虚拟数字人通用系统框架的基础上提炼出五横两纵的技术架构。“五横”是指用于虚拟数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。“两纵”是指 2D 和 3D 虚拟数字人,其中 3D 虚拟数字人需要额外使用三维建模技术生成数字形象,信息维度增加,所需的计算量更大。

虚拟数字人的交互模块涉及语音语义识别、人脸识别、动作识别、知识库和对话管理等多种复杂技术, 并不是所有的虚拟数字人都有交互功能。具有交互功能的虚拟数字人中根据是否有自然人驱动,可分为智能驱动型和真人驱动型两种类型。

智能驱动型又被称为TTSA(Text To Speech & Animation)人物模型,本质上是预先通过 AI 技术训练得到人物模型,并通过文本驱动生成语音和对应动画 。

2D、3D虚拟数字人均已实现嘴型动作的智能合成, 2D、3D虚拟数字人嘴型动作智能合成的底层逻辑类似,都是建立输入文本到输出音频(TTS:text-to-speech)与输出视觉信息的关联映射,主要是对已采集到的文本到语音和嘴型视频(2D)/嘴型动画(3D)的数据进行模型训练,得到一个输入任意文本都可以驱动嘴型的模型,再通过模型智能合成。而2D虚拟数字人嘴型视频是像素表达,3D虚拟数字人嘴型动画是3D模型对应的 BlendShape 的向量表达。 这里主要介绍2D虚拟数字人的驱动方式。


2D数字人人物表达

2D数字人人物表达主要是通过语音驱动2D数字人嘴型动作进行智能合成。使用Wav2lip模型基于规则或数据驱动的Lip Sync(Lip Synchronization,唇形同步)。参考Paper:A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild。使用 Wav2Lip 模型生成的视频的口型同步准确性几乎与真实同步视频一样好。

Github:https://github.com/Rudrabha/Wav2Lip

语音驱动的2D虚拟数字人主要分为两个方面:视频中嘴型匹配和单张图片生成视频。

  • 视频中嘴型匹配:

    视频嘴型匹配:输入一段视频和一段驱动音频,无需额外训练,来修改原视频中的嘴型,同时保持原有视频其他内容不变。

左侧为原视频,中间为换脸的视频,右侧为要换的目标人脸。换脸后对原视频进行人脸替换及视频嘴型匹配。

http://mpvideo.qpic.cn/0bc35iagqaaapaaeubeuw5sfb2wdndvaa2aa.f10002.mp4?

  • 单张图生成视频

    输入一张图片和一段驱动音频,无需额外训练来驱动原图像,得到风格化嘴型准确驱动结果。

左侧为驱动视频,右侧为驱动图片,中间两个为图片嘴型驱动结果,对于这两个驱动结果,其中左侧为没有加超分的结果、右侧为加超分的结果。

2D虚拟数字人除了嘴型之外的动作,包含面部表情、眨眼、摇头、点头、挑眉等动目前都是通过采用一种随机策略或某个脚本策略将预录好的视频或动作进行循环播放来实现。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 产品言语 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档