【AI专栏】语音合成系统评测介绍

作者:mekhidu

团队:腾讯移动品质中心 TMQ

前言

语音合成(Text To Speech,TTS)技术将文本转化为声音,目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及语言学、语音学的诸多复杂知识,因实现细节的不同,TTS系统合成的语音在准确性、自然度、清晰度、连贯性等方面也有着不一样的表现,如何从多维度评价TTS系统质量成了TTS测试人员的一大挑战。本文针对TTS前端、后端的问题介绍了一种包括主观评测、客观评测TTS测试方法。

一、前端后端问题

当前典型的TTS系统可分为前端、后端两部分,前端完成输入文本的归一化、分词、发音预测、韵律结构预测的处理,后端对声音建模,通过学习得到声音参数,最后由声码器合成声音。

由于自然语言本身的复杂性和开放性,前端处理部分难度较大,难以覆盖所有情况,可能引入的问题举例如下:

1、发音错误。汉语中的多音字、数字、专有名词根据上下文的不同,发音也不一样,训练语料的覆盖不全,会导致合成的语音中部分字词的发音错误。另外现在国际化背景下,各类中英混合语料、缩略词、符号的存在,也为发音预测带来了巨大挑战。

2、声调不准。中文在实际口语发音时,存在一系列复杂的的变调规则,如一/不变调,上声变调等。这类规则的处理不当会导致合成的语音与平时发音习惯不符,听来怪异。

3、韵律异常。前端通过语法词分词、韵律词分词、断句等方式在文本中插入不同程度的停顿,通过时长预测控制字词的发音时长。分词、断句的错误会引起合成语音时的错误停顿,听起来节奏不当。

后端通过声音参数和声码器(WaveNet不在此列)合成语音波形,实际实现过程中无论是声音参数的选择,还是声码器的设计都是对真实发音过程的有损估计,无法百分百还原人声,可能引入的问题如下:

(1)清晰度差。合成的字、词发音不清晰,近音词区分度差;

(2)还原度差。合成音与目标说话人的音色有差异;

(3)杂音。在合成语音过程中引入背景噪声、字词间隔不顺畅。

二、客观评测

针对前后端可能存在的问题,本评测方法选择如下语料和指标对TTS系统做客观评测。

1、语料

本评测方法从发音准确性测试、韵律测试、字典覆盖度测试、字清晰度测试、词清晰度测试等角度出发搜集测试语料,语料结构如下:

2、客观评测指标

(1)发音准确率

根据前端发音预测可能存在的问题,准备测试语料,包括语料文本,待检查词汇,标准发音等,合成语音后人工评测发音准确率。

(2)韵律准确率

前端文本处理过程中会对文本做分词处理和时长预估,人工准备部分语料,对语料做停顿标注,检查前端输出,统计韵律准确率,韵律标注需要较高的语言学知识,因此这块的测试进行起来比较困难。

(3)字典覆盖率

检查语音合成系统对汉字的覆盖程度,检测字表包括普通话不同等级的字库和生僻字库,输入字库语料,检查是否正确合成,统计覆盖率。

(4)字清晰度得分

采用汉语清晰度诊断押韵测试(DRT)法测试字清晰度,由不同听音人对押韵字表听音选择,并计算总DRT清晰度得分,详见《GB-T 13504-1992》。

(5)词清晰度得分

采用语义不可测句(Semantic Unpredictable Sentence, SUS)测试单词清晰度,由待测词组成不合语法的待测句子。语义的不可测可以避免听音人的经验猜测,影响测试准确性。

三、主观评测

1、MOS评测

国际上对语音自然度的评测,一般是使用MOS评测,邀请听音人对被测系统输出语音打分衡量。最好是能够邀请到有经验的听音专家来参与评分,听音专家从拟人性、连贯性、韵律感等方面对语音进行打分。

目前我们的评测是培训众测用户做为听音人,流程大致如下:

(1)双方语音音量归一化;

(2)语音字词发音准确性校验;

(3)生成众测问卷,语音顺序交叉打乱;

(4)众测用户培训,试听自然人声和较差合成音锚定打分标准;

(5)众测用户听音打分;

(6)回收问卷,答题数据校验;

(7)计算MOS得分。

MOS打分表:

2、细分主观指标

MOS作为一个整体的主观打分可用于反映不同TTS合成的语音之间的差距,但是不适用于细致分析差异所在。因此,在MOS之外我们与用研同学合作,从前端、后端、主观体验上拆解了15个细分主观评测指标,通过两两比较评分法(Paired Comparison,PC),让听音人从各细分指标进行打分,指标列举如下,详细问卷描述略。

关注微信公众号腾讯移动品质中心TMQ,获取更多测试干货!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员笔记

建筑和空间

1815
来自专栏新智元

【谷歌草绘RNN瞄准超级AI】源自壁画的飞跃,AI 学会归纳抽象概念

【新智元导读】人类自从开始在洞穴的岩壁上画出简单的草图,认知能力就产生了飞跃——归纳抽象的能力大大提高。现在,谷歌的 Magenta 项目也在致力于这一研究。名...

3149
来自专栏AI科技评论

学界 |「眼」来助听:谷歌视觉-音频分离模型解决「鸡尾酒会效应」

Google Research 软件工程师发表了可解决「鸡尾酒会效应」视觉-音频语音识别分离模型。 AI 科技评论按:人类很擅长在嘈杂的环境下将其他非重点的声...

4087
来自专栏个性化推荐评测

TTS系统评测方法介绍--WSRD AI评测实验室

TTS的实现涉及到语言学、语音学的诸多复杂知识,因合成技术的区别,不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现,如何从多维度综合评价...

6298
来自专栏互联网数据官iCDO

三个旧模型到三个新模型:数据驱动的SEM分析和优化的核心思路(上)

竞价排名(SEM)对所有追求效果的营销人而言,都绝对是一个不能绕开的话题。 关键词、创意、质量分、着陆页等等,已经有一套非常成熟可循的方法,每个行业也有自己的套...

2258
来自专栏大数据挖掘DT机器学习

大数据工程师:如何改进豆瓣电影Top250的算法思路

作者:飞林沙 算法工程师 影迷们经常关注的电影排行榜里,一部由100人评出9.0分的电影,和一部由10000人评出8.0分的电影,谁应该排在前面呢? 这是...

4295
来自专栏新智元

谷歌DeepMind连续深度学习网络PNN,距人类水平AI又进一步

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

3363
来自专栏数据派THU

【独家】微软郑宇:大数据驱动智能城市讲座精华(附PPT)

[导读]本文整理自微软亚洲研究院“城市计算”领域负责人郑宇博士近期在清华大数据讲座上的分享内容。郑宇主持研发的Urban Air首次利用大数据来监测和预报细粒度...

2918
来自专栏机器之心

业界 | 李飞飞、李佳宣布发布Cloud AutoML:AI技术「飞入寻常百姓家」

2755
来自专栏机器之心

严格的评选标准,造就了这张分享量过千的在线机器学习课程榜单

选自Medium 作者:David Venturi 机器之心编译 本文作者 David Venturi 是技术博客 freeCodeCamp 的知名主笔之一。 ...

3316

扫码关注云+社区