谷歌赋予机器更像人类声音听起来更自然舒适

文章来源：企鹅号 - 网易科技

（原标题：Google is giving machines voices that sound more human）

网易科技讯 3月28日消息，据VentureBeat报道，谷歌旗下Google Brain和机器感知团队的成员今天在博客文章中宣布，谷歌研究人员已经找到了让机器生成更自然、更像人类语音的方法，使它们的声音更有表现力。

今天早些时候，谷歌发布了其Cloud Text-to-Speech服务的测试版本，为客户提供谷歌助手Google Assistant使用的相同语音合成技术。谷歌Cloud Text-to-Speech由DeepMind的WaveNet支持，后者也可以用来生成听起来更自然的声音。

今天推出的Cloud Text-to-Speech服务和研究方法，可以用来为使用语音控制或语音计算的设备、应用程序或数字服务带来更自然的声音。

在最近发表的两篇关于如何模仿语音中的重音或语调的文章中，都提到了让机器声音听起来更像人类的新方法，符合语音学韵律的规律。这两份论文中提及的技术都是在Tacotron 2上建立的，这是去年12月首次亮相的人工智能系统，它使用被训练的神经网络模仿人类语言。

虽然Tacotron在最初的800人测试中听起来像是人类的声音，但它无法模仿在压力条件下的人类声音或说话者的自然语调。在Tacotron联合创始人Yuxuan Wang领导的研究中，通过将人类语音记录片段嵌入其中实现了压力水平下的语音生成。

研究人员在博客文章中说:“这种嵌入捕捉声音特征的方式独立于语音信息和说话者的特殊特征，这些特征包括压力、语调和时机等。在推理时，我们可以使用这种嵌入方式来进行韵律转换，生成完全不同的说话者声音，同时模仿引用者的语音韵律。”

第二篇论文是由Skerry-Ryan撰写的，它使用无监督训练来识别语音模式并模仿某些语言风格。

第一种韵律转换方法依赖于模仿长度和结构相似句子的语音；第二篇论文中使用的语言风格转换方法是，不需要模仿录制的音调或相似长度的语音，从而将演讲风格转移为愤怒或活泼的语气。

Yuxuan Wang和Skerry-Ryan都表示:“这是前景十分乐观的研究，因为它为语音交互设计师们使用他们自己的声音定制语音合成铺平了道路。”

除了谷歌的Cloud Text-to-Speech服务和语音识别服务之外，更有表现力的语音技术还可以带来更人性化的Google Assistant。摆脱单调的无音域声音似乎是科技巨头们追求的策略之一，比如Alexa、Siri和Google Assistant。

去年，Siri得到了更有表现力的声音。4月份，Alexa为语音应用程序开发人员提供了SSML标签，以提高个人助理的语音能力，比如停顿、耳语或类似“砰”或“Bada bing”的表情。SSML也已向Google Assistant开发者开放。（小小）

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货