首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌发布Tacotron 2:能更简单地训练AI学习演讲

北京消息,谷歌目前在人工智能语音技术方面处于领先,而这样的领先优势很可能得到进一步巩固。谷歌周三发布了 Tacotron 2。这是一种训练神经网络的新方法,可以在几乎没有任何语法专业性的情况下从文本中生成演讲。

这项新技术利用了谷歌此前在语音生成方面最强大的两种技术:WaveNet 和第一代 Tacotron。

WaveNet 每次能生成一段讲话音频。尽管效果很好,但 WaveNet 需要用到大量关于语言的元数据,包括发音,以及已知的语言特征等等。Tacotron 则综合了更多高级特性,例如语调和韵律,但并不能生成最终的演讲音频。

Tacotron 2 结合了以上两者的优势,或许已经发挥出了当前技术专业性的极限。Tacotron 2 使用文本和文字叙述来计算所有语言规则,而不再需要人工明确告知系统规则。文本本身被转换为 Tacotron 风格的“梅尔频谱”,实现节奏和强调。而单词本身则基于 WaveNet 风格的系统来生成。

由此产生的音频比以往更好。演讲的节奏感很好,但对于不太直观的单词,发音可能有问题。这或许是由于,单词的来源不是美式英语,这样的单词包括 Decorum 和 Merlot。研究者表示:“在极端情况下,可能会随机产生奇怪的噪声。”

此外,尽管口音和其他语言细节可以通过与 WaveNet 的交流而输入,但仍然没有任何方式去控制演讲的语调情绪,例如乐观或担忧。

降低系统训练障碍意味着可以训练更多更好的系统。研究人员已经将研究成果提交至 IEEE 国际声学语音和信号处理大会,论文已发表至 arXiv。

市场、商务合作请点击主页菜单中的“联系我们”进行洽谈

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171221B0HG5D00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券