TTS系统评测方法介绍--WSRD AI评测实验室

语音合成(Text To Speech,TTS)技术将文本转化为声音,目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及到语言学、语音学的诸多复杂知识,因合成技术的区别,不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现,如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。AI评测实验室针对TTS前端、后端的存在的问题,选取TTS评测指标,制定各指标评测方法,形成了一套系统的TTS评测方案。

一、前端后端问题

当前常见的TTS系统可分为前端、后端两部分,前端完成输入文本的归一化、分词、发音预测、韵律结构预测等处理,后端对声音建模,用学习得到的声音参数,通过声码器合成声音。

由于自然语言本身的复杂性和开放性,前端处理部分难度较大,难以覆盖所有情况,可能引入的问题举例如下:

  • 发音错误,汉语中的多音字、数字、专有名词等根据上下文的不同,发音也不一样,语料的覆盖不全,会导致部分字词的发音错误,另外现在国际化背景下,各类中英混合语料、缩略词、符号的存在,也为发音预测带来了大量困难。
  • 声调不准,中文在实际口语发音时,存在一系列复杂的的变调规则,如一/不变调,上声变调等。这类规则的处理不当会导致合成的语音与平时发音习惯不符,听来怪异。
  • 韵律异常,前端通过语法词分词、韵律词分词、断句等方式在文本中插入不同程度的停顿,通过时长预测控制字词的发音时长,分词和断句的错误会引起合成语音时的错误停顿,听起来节奏不当。

后端训练模型预测声音参数,声音参数通过声码器(WaveNet等不在此列)合成语音波形。无论是声音参数、还是声码器都是对实际发音过程的有损建模,无法百分百还原人声,可能引入的问题如下:

  • 清晰度差,合成的字、词发音不清晰,近音词区分度差。
  • 还原度差,与目标说话人的音色有差异。
  • 杂音,在合成语音过程中引入背景噪音、字与字之间不流畅的杂音。

二、评测指标介绍

针对上文提到的前后端可能存在的问题,选择如下指标来评测TTS。

发音准确性

线上语料中频繁出现的多音字、数字、符号、夹杂英文会给TTS前端带来很大的挑战,对这类case的发音错误会给用户带来较差的体验。为了评估并提升前端的正确发音的能力,AI评测实验室建立大规模前端测试语料,通过TTS前端输出快速验证语料上的发音准确性。

发音准确性=正确发音的用例数/总的用例数×100%

韵律准确性

前端文本处理过程中会对文本做分词处理和时长预估,为评估TTS停顿和发音时长的合理性,可以准备不同领域不同句式的不同情感的文本,通过众测主观判断合成语音是否可接受,计算TTS韵律准确性。

韵律准确性=停顿可接受用例数/总的用例数×100%

字典覆盖率

为检查语音合成系统对汉字的覆盖程度,建立覆盖汉普通话不同等级的字库和生僻字库的测试语料,通过TTS前端输出工具,检查是否能正常处理,统计字典覆盖率,实际评测中,因为测试发音准确性需要准备庞大语料,覆盖了大量汉字,可以在测试发音准确性时顺便发现字典覆盖中的badcase。

字典覆盖率=前端正常处理的字数/样本总字数×100%

字清晰度得分

采用汉语清晰度诊断押韵测试(DRT)法测试字清晰度,TTS合成DRT基本字表,覆盖浊音、鼻音、低沉音等不同特征的押韵字,听应音人根据TTS读音在问卷上选出听到的字,最后由测试人员统计结果计算清晰度等级,详见《GB-T 13504-1992》。现有TTS合成的字清晰度较高,可以根据产品实际情况选择是否需要评测此项。

词清晰度得分

采用语义不可测句(Semantic Unpredictable Sentence, SUS)测试单词清晰度,语义的不可测可以避免听音人的经验猜测,使评测结果更可靠。可根据产品实际情况选择是否需要评测此项。

MOS

业界对语音的整体评测,一般是使用MOS。邀请听音人试听合成语音,根据分值描述,从拟人性、连贯性、韵律感等方面为语音选择合适的分数。

三、评测方法介绍

本章详细介绍评测时重点关注的发音准确性评测和MOS评测。

发音准确性测试的目的是评估前端发音预测能力,挖掘badcase,通过多轮修复和回归,提升系统发音准确率。

可能影响到TTS发音准确的语料类型较多,具体可细分为以下几类:

  1. 特殊读音的姓氏:被测系统应该有能力根据上下文区别姓氏的特殊读音,如“报仇”和“仇老五”,“仇“做为姓时应该读为qiu2。
  2. 数字进制:被测系统应该按照汉语习惯对数字的进制正确发音,如宝马4系列的轿车需要896,500元,“896,500”应展开为“八十九万六千五百”。
  3. 年代:以年代形式出现的数字应该根据上下文区分是进制读法、位制读法还是顺序读法,如中国在4000年前就开始物种驯化,中“4000”应该是进制读法“四千”;秦朝建立与公元前221年,中“211”应该是位制读法“两百二十一年”;马克思生于1818年,中“1818”应该采用顺序读法“一八一八”。
  4. 时间:被测系统对于不同的时间表示格式应该给出正确读音,如”2017/10/27”,”23:11””5pm”等
  5. 电话:对于不同格式的电话数字应该给出正确读音,如“0724-4356333“,”182-3123-3213“,”(+86)182-3123-3213 “等
  6. 分数小数百分数:对于文本中常见的百分数和小数表示,应该给出正确发音,如“1/2”“2%”“0.9882”等
  7. 全角半角数字:数字符号有全角半角之分,前端系统应该能正确识别并发音
  8. 符号单位:对测试材料中的符号和单位应该按照我国法定计量单位规定进行发音,一些复杂读音的符号如“:”、“-”、“#”、“*”等需要能根据上下文选择正确的发音
  9. 专有名词术语:对于专有名词和专业词汇应该根据上下文作出正确发音,如“工尺”、“般若”等。
  10. 中英文混合:新闻和日常对话中,经常会混入英文词汇或缩写,对于这些情景,应该能识别主场景语言,平滑切换到英文部分并正确发音。

建设语料时,如此详的分类对于评估准确率、挖掘Badcase无额外收益,徒增工作量,因此实践中将准确性测试语料分为多音字、数字、符号三大类分别建设。

多音字发音评测

语料建设

完备的测试用例是评测TTS前端准确性的基础,多音字语料建设流程如下:

  1. 整理收集常见多音字和多音字的读音,建立包含不同领域文章的文本集
  2. 然后收集多音字组成的词组(包括单字词),将词组进行分类,分为固定读音词组和非固定读音词组,固定读音词组是当多音字以这个词组形式出现时,始终读一个音;非固定读音词组是当多音字以这个词组形式(包括单字词)出现时,读音不确定。
  3. 最后文本集上爬取包含多音字词组的句子生成测试用例。通过固定读音词组生成的用例自带标注,这里判断句子中是否包含指定词组时,需先分词然后判断分词结果是否包含词组;由非固定读音多音字生成的用例,因为读音不确定,还需要再通过众测做人工标注。

根据北京理工大学的研究,现代汉语词典中共查到1036个多音字,其中有688个多音字以单字词的形式在人民日报语料中至少出现过一次。AI评测实验室目前已建立的多音词测试语料共覆盖469个多音字的791种读音,覆盖包含12760个词组的语料120w句。

评测方法

合成语音后,通过听语音来判断发音正确下的效率太低,实际评测过程中可直接对前端的发音预测结果进行校验,测试语料通过TTS前端,输出每个字的读音和音调,对比实际输出与期望输出判断对错。

注意TTS输出拼音时已经做过变调调整,测试时可以专门打包一个不变调的版本或者对输出的拼音做一次变调。评测形式如下:

评测进度应该按照第一轮摸底测试、多轮回归测试、错误率高的多音字专项测试、生僻字专项测试的顺序进行,不断挖掘badcase,逐步提高TTS的多音字发音准确性。

符号发音评测

语料建设

符号类语料的建设需要考虑标点符号、单位、英文夹杂等情况,我们整理了39个可能发音的重点关注符号(:-~%)。建立语料时从文本集搜寻包含重点符号、单位、英文夹杂、其他符号的语料,分别进行评测。

评测方法

重点符号类和单位类:测试语料通过TTS前端工具,输出归一化结果,建立众测标准,人工标注输出结果是否符合预期,形式如下:

英文夹杂类:这类语料只通过前端输出无法准确判断对错,需要合成语音后,听音判断是否自然切换,发音准确。

其他符号:剩下的这类符号如颜文字、小语种符号大概率不参与发音,而这类爬取得到的语料数量又最多,实际测试时抽样了部分,检查TTS是否能正常跳过此类符号不发音。

数字发音准确性评测

语料建设

数字类语料需覆盖电话、QQ、分数小数百分数、型号数字等不同case,实际建设这部分语料时比较暴力,凡文本集中包含数字的句子均拿来做测试用例,优于数字和符号常一起出现,为避免重复标注,一个句子不同时加入数字和符号的测试语料。

评测方法

数字部分的评测方法与符号类似,为加快标注速度直接对前端归一化输出做判断,而不是对测试语料进行标注后再与前端输出结果做比较,形式如下:

3.2 MOS评测

MOS常见于各类TTS的PR文或论文中,被用于评测TTS的整体得分。因为是主观评测,MOS在不同人群、不同时间、不同测试语料下结果波动较大,在TTS产品不断迭代中,通过传统的MOS评测很难反映新旧模型差异、当前模型与竞品的差异。因此我们将MOS评测与两两比较法相结合,并引入上标锚定打分标准,使结果相对稳定。

语料建设

前端的评测通过发音准确、韵律准确等来评测,MOS评测应该专注于整体自然度,因此准备测试语料的时候尽量避开了多音字、符号、数字语料,从各领域和TTS实际应用场景摘选常规文本作为测试语料。为避免听音人疲惫,语料数量不能太多,需要控制评测时间。

当前TTS得分大都高于4分,因此我们在传统MOS五档分值中加入了4.5分档,打分及描述如下:

级别

MOS值

描述

5.0

非常自然。语音达到了广播级水平,很难区分合成语音和广播语音的区别,听起来非常相似。从整体上来说语音清晰流畅,声音悦耳动听,非常容易理解,听音人非常乐意接受。

4.5

自然,听起来完整没有明显不正常的韵律起伏,比较清晰流畅,比较容易理解,达到了人们普通对话的质量,听音人愿意接受。

4.0

还可以。没有出现明显的分词错误和严重的语言韵律错误,有很少的一两个音节不太清楚,听音人可以没有困难的理解语音的内容,听音人多数认为可以接受。

3.5

不太自然。语音还算流畅,语音中的错误比较少,偶尔有几个音节不太清楚,韵律起伏比较正常,错误比较少,多数听音人勉强可以接受。

3.0

可接受。语音不太流畅,有比较容易察觉的语言错误,有一些不太正常韵律起伏,一般情况下可以努力理解语音的内容,不太愿意接受。

2.0

比较差。语音不流畅,听起来只是把单独的音节简单的堆砌到一起,没有正常的韵律起伏,有一些词不是太清晰,难于理解,整体上听音人可以听懂一些内容,但是不能接受。

1.0

明显的是机器音。很不清楚,语音无流畅可言,只能听懂只言片语,基本上无法理解,完全不能接受。

评测方法

  1. 分别合成被测TTS、对照TTS的语音,并且录制一份声优语音混入一起测试,注意录制时各类语音参数应保持一致
  2. 校验上述语音是否与语料内容一致,是否存在错误发音
  3. 语音音量对齐
  4. 生成众测问卷,被测TTS、对照TTS、声优三者语音交叉打乱
  5. 开始任务前给听音人试听上标下标语音,告知上下标语音的大致得分
  6. 众测用户开始听音打分,前三条语料的语音作为用户进入状态平稳打分标准的铺垫
  7. 回收问卷,剔除出界次数较多的用户数据,统计MOS最终结果

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

个性化推荐评测

1 篇文章3 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

科学家使用深度学习研制生物医药

美国伊利诺伊大学香槟分校与加利福尼亚大学洛杉矶分校合作开发了一款新的用于医学研究的机器学习系统。 目前约有1100种已知的可以穿透微生物膜的具有不同序列的抗菌肽...

25811
来自专栏量子位

如何让聊天机器人懂情感?这是一篇来自清华的论文

原载:Paperweekly 作者:黄民烈,清华大学老师 关注自然语言处理、人机对话情感分析等方向 aihuang@tsinghua.edu.cn 当你悲伤的时...

3726
来自专栏大数据文摘

英国科学期刊选出了世界上最美丽的10个公式

1353
来自专栏华章科技

这些数学问题曾经坑死了世人

几千年以来,人类在研究数学的过程中,提出并解决了很多难题。有些数学难题不仅玩坏了很多研究者,其解决的过程或结果也让人觉得十分坑爹。哆嗒数学网小编就在这里列举To...

751
来自专栏机器之心

业界 | 带有韵律的合成语音:谷歌展示基于Tacotron的新型TTS方法

选自Google Blog 作者:Yuxuan Wang、RJ Skerry-Ryan 机器之心编译 参与:黄小天、李亚洲、李泽南 神经网络文本转语音(TTS)...

3337
来自专栏量子位

自动为人脸上色,Adobe的涂鸦AI想让世界更多彩

安妮 编译自 Engadget 量子位 出品 | 公众号 QbitAI ? 黑白世界多无趣,加点色彩多好。好巧,Adobe也是这样想的。 在本周四的Adobe ...

3556
来自专栏量子位

真实到可怕!英伟达MIT造出马良的神笔

拿到神笔的马良,可以画物品、画动物、画食物,而且,这些画作都可以一秒钟从画面上出来,变成真实世界中存在的东西。

643
来自专栏腾讯移动品质中心TMQ的专栏

【AI专栏】语音合成系统评测介绍

如何从多维度评价TTS系统质量成了TTS测试人员的一大挑战。本文针对TTS前端、后端的问题介绍了一种包括主观评测、客观评测TTS测试方法。

2041
来自专栏生信宝典

引起相变的无序结构域(IDRs)怎么预测?跟踪热点,提升文章档次!

蛋白研究过程中,一般认为氨基酸的序列决定了蛋白的结构,结构决定功能(一般指蛋白的三维结构)。然而,近50年的研究中,有一种没有特定三维结构的蛋白不断被研究人员发...

1092
来自专栏腾讯移动品质中心TMQ的专栏

TTS评测--方案介绍和实践分享

语音合成(Text To Speech,TTS)技术将文本转化为声音,目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及到语言学、语音学的诸多复...

1725

扫码关注云+社区