让机器说人话,说出来的是东北腔还是福建话全靠这个模型了

昨天写了人机对话的第一步,“听”。今天就说一下机器的“说”,说就是“说人话”让机器有人性、人情味。

与文字转化语音的生硬不同,要让机器“说人话”可是一件很难的事情,要运用声学模型和专门的语言模型。声学模型决定了语言的发音,是东北腔还是福建腔或者湖南腔、陕北音全靠这个声学模型了。打出一个字,系统就在原始音库中找到合适的发音对应上去。要让电子发音没有机器味而有“人味”,就要为语音资料建库。例如让机器学习时间从20小时升到100小时,此后机器模仿出来的声音听起来就舒服多了。

为了保持语音的连贯性,不至于让合成语音听起来像“断气”了一样,语言模型还会持续提升文本库的学习连接概率。比如说出“中华”,系统还能在后续词组中选择“人民共和国”“民族”“儿女”等进行匹配。

长语音是让机器语音更有气场的技术。情感合成、远场方案、长语音方案等为合成语音加入情感,让其更接近真人发声效果。语音识别的场景应用极为广泛。

比如我们可以借此创造出一个“最强销售员”:销售员新手给客户打电话时,机器实时记录客户的回复,并显示在电脑屏幕上,系统可以瞬时搜索并调取优秀销售员以往对这些问题给出的回复。这样,每个“菜鸟”只要“照本宣科”,就能在上岗第一天掌握过去最优秀的销售员所具备的交流能力。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171218A0QTE300?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区