首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

虚拟人怎么张嘴说话?

哈喽,大家好!

我是脱发依然吴彦祖的普信帅哥

侃老师

今天我们来聊聊

怎么让电子设备里的虚拟人张嘴说话?

这可真是个深奥的命题

以前动画制作技术还在相对原始阶段时

纸片人张嘴说话主要靠配音和画画的工具人

现在那就发达多了

怎么搞?

那就是“语音动画合成技术”

(Speech-to-Animation)

利用语音动画技术让虚拟人张嘴说话

大概分三步

第一步,识别拆分音素

语音驱动虚拟动画

需要先进行语音特征数据提取

利用特定的技术手段

将语音信号转换为计算机能够处理的语音特征向量

并从音素序列中

拆分出音素

另外有一种驱动方式叫文本驱动

本质上

文本驱动其实与语音驱动殊途同归

只是比语音驱动多了语音合成的步骤

先将文字文本通过TTS技术合成音频

合成音频的同时生成音素级别时间戳

或者在音频合成后按照语音的那套方式拆分音素

第二步,匹配口型

利用算法

将音素与其对应的口型系数进行匹配

通常情况下

口型数据的获取分两种

一种是通过记录说话者说话时

发音器官位置和语音数据资料

通过算法匹配出每个音素对应的口型

另一种是通过3D建模技术人工制作出相应的口型

第三步,3D驱动生成

按照音素序列和时间轴

确定哪个时间点匹配什么样的音素和口型参数

在3D模型中

对关键帧插值得到连续的视素序列

从而实现动画合成

让虚拟人说话

本质上是给虚拟人填补语言能力缺陷

让他们通过深度学习更倾向真人

人类讲话语速每分钟能够达到160-180个字

在语速较快的环境下

虚拟人展示出的口唇部运动

很难像人类的肌肉神经一样反应迅速

所以在早期的语音动画合成中

虚拟人口型动作单一、僵硬往往就成了槽点

怎么解决?

可以根据音素发音特点

通过数据比对

将需要重点体现的音素进行标定

使发音动画特征体现更明显

将采集真人系数进行曲线化

通过人工拟合算法

让口型过渡更自然

通俗的概括起来就是

让口型特点突出的地方更突出

过渡的地方只要数据够多够精准就能自然

这项技术

在应用中不断成熟

在成熟中不断应用

让开口说话的虚拟人

变得越来越强了

在手机APP里

他们是智能客服的角色

在火车站、地铁站、商场、旅游景点

他们可以作为服务向导

在疫情期间的线上法庭

他们拥有法官的身份

在医疗系统中

他们变成了病患的随身医生

他们正在我们的生活中

扮演着不可或缺的角色

语音动画合成技术

驱动虚拟人说话的基本逻辑

我们今天就讲到这里

我们

只讲人话

力争让小学生都能听懂“黑科技”

关注侃老师

陪你们一起涨姿势!

XR技术漫谈

微信公众号「相芯FaceUnity」专栏,用说人话的方式侃技术。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210104A0CLCR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券