首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

无障碍人机交互时代已向我们走来,标贝科技推出语音合成评测系统!

在AI语音交互全流程中,面对语音识别、语义分析、语音合成这三座大山,我们仍然需要不忘初心,砥砺前行,以期获得更为自然、富有情感的人机交互体验。

标贝科技是一家专注于人工智能数据服务的公司,一直以来秉承为客户提供专注、专业、高质的数据服务,其更致力于有着较高技术含量的语音合成领域的深耕与研究。标贝科技在语音合成领域,提供包括发音人选择、语料设计、语音采集、数据处理、语音深度加工等,数据类型上包括文本数据、语音数据等,服务包括TTS评测系统等,为客户提供一整套的定制化语音合成服务。

TTS即是“语音合成”又称“文语转换”(Text-To-Speech),指通过机械的、电子的方法生成语音的技术。当前TTS系统可分为前端和后端两部分。前端完成输入文本的归一化、分词、发音预测、韵律结构预测的处理;后端对声音建模,通过学习得到声音参数合成声音。由于自然语音本身的复杂性和开放性,前端处理部分难度大,需覆盖面广,导致该部分一直是语音合成领域的重点和难点。

目前成熟的语音合成技术分两种,第一种称为拼接法。把语音里面所有的语料基础片段都录好,再根据需要,利用技术手段择取语音单元,并拼接成具体话语,这种方法需要大量的语音录制。第二种称为参数法。基于有限的语料数据通过参数模型训练,合成新语段,参数法的优势在于对录音数量要求较少,几千句话就能出一个合成效果。无论用户用哪种合成技术,都离不开专业的语音数据服务,而标贝最核心的业务恰恰是提供优质的语音数据,让用户可以专心于合成技术的研发,快速实现高质量的合成系统。

在自然语言、语音合成领域,发展速度较快。但是我们在与智能设备进行互动时,回传到耳朵里的,仍然是满满“机械感”、缺少情感的声音。要解决这一问题,基础建设是关键。目前TTS评测系统测试阶段,为人工智能语音技术公司提供免费评测服务,欢迎业内人士提出宝贵建议,共同完善TTS评测系统。

标贝科技首发TTS评测系统,并针对语音合成系统提供了一整套的TTS前端解决方案。标贝科技的评测系统主要分为两大模块,即:合成缺陷度评测和合成自然度评测。其合成缺陷度主要体现为韵律、多音字、数字符号及分词词性四个模块。针对这四个模块的评测,即为TTS缺陷度评测。合成自然度评测则包括ABX和MOS评测。

韵律评测

韵律层级预测错误,直接影响句子的自然度及可懂度。此模块以涵盖10个领域的测试集对TTS前端系统进行韵律处理的评测,对处理结果进行对比分析,将TTS前端韵律处理的问题呈现给用户,通过正确率,反映问题所在。

多音字评测

多音字是影响句子可懂度的一个重要因素,此模块以涵盖100余个常用多音字的测试集对TTS前端系统进行多音字处理的评测,并对处理结果进行对比分析,让用户了解TTS前端多音字的问题所在。

数字符号评测

数字符号的类型多样,常以混合方式出现在各个领域的文字中。数字符号的预测错误对句子的理解及句意的表达会产生重大影响。此模块以涵盖多种类型的数字、符号及组合测试集对TTS前端系统的数字符号模块进行评测,呈现结果让用户有针对性的解决关键问题。

分词词性评测

分词词性的正确与否,会影响韵律及多音字的正确率。分词词性的预测错误,是导致韵律错误的主要因素之一,从而影响句子的自然度和可懂度。此模块的测试,可以帮助客户了解此模块的性能,从而得到进一步改进。

ABX&MOS评测

ABX和MOS的评测,即为TTS合成自然度的评测。以代表不同的TTS用户群体的评测人员,分别以横向和纵向两种不同的方式对TTS合成系统的自然度和流畅度进行评测。目的在于,让用户了解自身TTS系统的优化空间及市场竞争力。

综合评测

标贝科技针对用户的TTS语音,从TTS前端的文本预处理、文本分析、韵律层级预测到TTS音高、时长等声学参数,以及声码器等影响语音生成的因素进行分析,查找问题源头,提供合理建议及问题解决方案,从而提高合成效果。

标贝科技依靠对语音合成领域的经验所提供的TTS评测系统,解决语音合成的本质问题,让语音在人机交互的作用发挥上有了更多想象空间!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180305A11RLC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券