专栏首页人工智能前沿讲习精选论文 | 情感语音识别与合成【附打包下载】

精选论文 | 情感语音识别与合成【附打包下载】

关注文章公众号 回复"SFFAI31论文"获取本主题精选论文

论文推荐

人机交互是人工智能的重要研究热点。而关于情感的研究使得人机交互变得更加有温度。情感语音识别要求从语音中准确的识别人类所具有的情感表达,有助于机器对于我们语义的理解;而情感语音合成则是为了使得机器合成的语音更加自然,更加具有温度。因此6月1日(周六),《SFFAI31期-情感语音识别与合成论坛》邀请两位出色的博士生(黄健,郑艺斌),分别从情感语音识别与合成两个维度来给带大家了解人机交互。

你可以认真阅读,来现场和讲者面对面交流哦。

1

推荐理由:语音情感特征对于正确的语音情感识别具有重要的作用,因此学习到鲁棒的语音情感特征具有重要的作用。以前的研究利用无监督学习自编码器学习情感特征只是基于简单的重建损失进行训练,然后抽取中间层得到情感特征。然而这样可能会混杂其它的声学信息如语言等,无法提取有效的情感特征。在本文中,将中间层特征分为两个部分,其中一个表示情感特征、另一个表示非情感特征,并使二者正交来区分二者使之学习到的特征更为趋向于情感特征,并通过实验验证了所提方法的有效性。此外,这种思想还可以推广到其它需要提取鲁棒的特征但会混有其它信息的领域。

推荐理由来自:黄健

2

推荐理由:先前的研究已经有许多工作利用深度神经网络提取鲁棒的语音情感特征,主要有利用无监督学习自编码器及变体进行提取和利用大量语音数据预训练的神经网络进行提取。本文基于区分性学习的思路,学习鲁棒的语音情感特征使相同情感类别的距离减小,不同情感类别的距离增大。系统的输入包括两个同类别的样本和一个不同类别的样本,经过变长模块处理为等长输入,利用长短时记忆模型进行情感时序编码,生成有效的鲁棒的情感特征向量,训练目标包括区分性损失和监督交叉熵损失两个任务。

荐理由来自:黄健

3

推荐理由:语音情感识别是一个低资源的任务,情感数据量较小。本文提出利用半监督自编码器来提高语音情感识别的准确率。模型的训练包括无监督重建损失和监督分类损失,并且将无情感标签的语音样本单独分为一类,使模型能够充分利用无情感标签的数据进行训练,能够减小所需的情感数据样本,在不同的实验数据库上均表明所提方法的有效性。

荐理由来自:黄健

4

推荐理由:语音情感识别是一个多对一的问题,以前的解决方式是通过对每帧预测结果投票或者在特征层池化的方式解决。本文假设一句话的状态两种状态的链式结构,包括情感状态和非情感状态如静音、停顿等,利用语音识别中常用的CTC模型进行语音情感建模。实验结果表明,CTC模型能够有效地识别语音情感状态,并且将一些非情感表达时刻识别未非情感状态,并取得了良好的效果。

推荐理由来自:黄健

5

推荐理由:这篇文章可以看做是端到端语音合成的开山之作,文章提出了一个深度圣经网络模型,直接生成原始的音频波形。

推荐理由来自:郑艺斌

6

推荐理由:不同于WaveNet结构,tacotron主要采用的结构为基于encoder-decoder的Seq2Seq的结构来是将文本转化为语音。其中还引入了注意机制(attention mechanism)。Tacotron在自然感(naturalness)方面优于已在生产中应用的参数系统(parametric system)。此外,由于 Tacotron 是在帧(frame)层面上生成语音,所以它比样本级自回归(sample-level autoregressive)方式快得多。

推荐理由来自:郑艺斌

7

推荐理由:谷歌推出了新的语音合成系统 Tacotron 2,包括一个循环序列到序列特征预测网络和一个改良的 WaveNet 模型。Tacotron 2 是在过去研究成果 Tacotron 和 WaveNet 上的进一步提升,可直接从文本中生成类人语音,相较于专业录音水准的 MOS 值 4.58,Tacotron 2 取得了 4.53 的 MOS 值。

推荐理由来自:郑艺斌

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:must

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】

    黄健,中国科学院自动化研究所模式识别国家重点实验室15级硕博生。目前研究兴趣为多模态情感识别。博士期间在ACMMM,ICASSP,Interspeech等会议上...

    马上科普尚尚
  • 万小军:情感文本生成的研究与应用

    本次报告的主题是情感文本生成,先从自然语言生成技术的应用与需求开始讲起,引出情感表达型文本生成问题,从评论生成、情感对话、反讽生成、情感转换以及多模态情感生成这...

    马上科普尚尚
  • 语音识别的前沿论文,看我们推荐的这4篇

    近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。

    马上科普尚尚
  • SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】

    黄健,中国科学院自动化研究所模式识别国家重点实验室15级硕博生。目前研究兴趣为多模态情感识别。博士期间在ACMMM,ICASSP,Interspeech等会议上...

    马上科普尚尚
  • 腾讯云语音识别安卓SDK使用笔记

    腾讯云语音识别为开发者提供语音转文字服务的最佳体验。经公司内部微信、QQ 、腾讯视频、王者荣耀等大体量业务充分验证,也在大量互联网、金融、教育等领域的外部客户业...

    算法发
  • Python语音交互的实现

    在windows10上运行的测试内容。 Python版本:Python3.6.2。 已经注册并添加了百度的'’语音识别'和'语音合成'应用。 已经注册并创建了图...

    py3study
  • 万小军:情感文本生成的研究与应用

    本次报告的主题是情感文本生成,先从自然语言生成技术的应用与需求开始讲起,引出情感表达型文本生成问题,从评论生成、情感对话、反讽生成、情感转换以及多模态情感生成这...

    马上科普尚尚
  • 语音识别揭秘,它与人工智能是什么关系?

    自1962年IBM推出第一台语音识别机器以来,语音识别科学已经走了很长一段路。这已经不是什么秘密了。

    AiTechYun
  • 科大讯飞,站在十字路口

    在位于合肥规划中三到四平方公里的中国语音产业园,建筑机械群正在紧张作业。在竣工的讯飞大厦里,两千多名科大讯飞员工围绕“声音”忙碌着。在移动互联网的风口,...

    罗超频道
  • 语音控制:企业计算的下一个重大突破

    如果说2007年 iPhone 的发布开启了近十年来消费者信息传达被屏幕和视觉统治的时代,那么,语音将成为继智能手机之后企业科技界下一个最大的颠覆。

    人称T客

扫码关注云+社区

领取腾讯云代金券