VB推荐
即将来临的事件
2018年4月9日至10日
2018年8月21-22日
2018年10月22-23日
Google的研究人员已经找到了让机器生成的语音听起来更自然的方法,谷歌的大脑和机器感知团队今天在一篇博客中介绍了一些更具表达力的声音。今天早些时候,Google宣布了其云文本到语音服务的beta版本,为用户提供与Google Assistant相同的语音合成功能。谷歌的云文本到语音功能是由DeepMind的WaveNet提供的,它也可以用来产生听起来很自然的声音。
今天推出的“文本-语音”和“研究方法”等服务,可以用来为那些利用语音控制或语音计算的设备、应用或数字服务带来更多的自然语言。
在最近发表的两篇文章中,介绍了发声声音的新方法,这些文章是关于如何模仿语言中的重音和语调,在语言学中被称为韵律。这两篇论文都记录了在Tacotron 2上建立起来的技术,这是一种人工智能系统,它使用的神经网络经过训练,模拟了去年12月首次亮相的人类语言。
尽管Tacotron在最初测试的800名受试者中听起来像人声,但它无法模仿压力或说话者的自然语调。在第一个研究中,由Tacotron共同创造者王宇轩创作的,将类似于压力水平的东西的转移,通过嵌入人类语言的录音片段来实现。
“这种嵌入捕捉了声音的特征,这些声音独立于语音信息和特殊的说话者特征——这些都是压力、语调和时间等属性,”研究员王宇轩和工程师RJ sk莉瑞安在一篇博客文章中写道。“在推断的时候,我们可以利用这个嵌入来执行韵律转换,在一个完全不同的说话者的声音中产生语音,但却表现出了引用的韵律。”
第二篇论文是由斯克里-瑞安撰写的,它使用无人监督的训练来识别语音模式,模仿特定的说话方式。
第一个方法是模仿类似长度和句子结构的语音,第二篇论文中使用的方法,在不需要录音的声音的情况下,实现语音转换,而不需要模仿声音的音调,或者需要模仿相似长度的语音来进行工作。
“这是一个很有希望的结果,因为它为语音交互设计者们使用他们自己的声音来定制语音合成铺平了道路,”王和斯克里-莱恩说。
除了谷歌的文本语音识别和语音识别服务外,更富表现力的语音技术还可能会让谷歌的助手变得更人性化。摆脱单调乏味的声音似乎是科技巨头们的战略的一部分,他们有Alexa、Siri和Google助手这样的助手。
领取专属 10元无门槛券
私享最新 技术干货