关注文章公众号 回复"SFFAI31论文"获取本主题精选论文
论文推荐
人机交互是人工智能的重要研究热点。而关于情感的研究使得人机交互变得更加有温度。情感语音识别要求从语音中准确的识别人类所具有的情感表达,有助于机器对于我们语义的理解;而情感语音合成则是为了使得机器合成的语音更加自然,更加具有温度。因此6月1日(周六),《SFFAI31期-情感语音识别与合成论坛》邀请两位出色的博士生(黄健,郑艺斌),分别从情感语音识别与合成两个维度来给带大家了解人机交互。
你可以认真阅读,来现场和讲者面对面交流哦。
1
推荐理由:语音情感特征对于正确的语音情感识别具有重要的作用,因此学习到鲁棒的语音情感特征具有重要的作用。以前的研究利用无监督学习自编码器学习情感特征只是基于简单的重建损失进行训练,然后抽取中间层得到情感特征。然而这样可能会混杂其它的声学信息如语言等,无法提取有效的情感特征。在本文中,将中间层特征分为两个部分,其中一个表示情感特征、另一个表示非情感特征,并使二者正交来区分二者使之学习到的特征更为趋向于情感特征,并通过实验验证了所提方法的有效性。此外,这种思想还可以推广到其它需要提取鲁棒的特征但会混有其它信息的领域。
推荐理由来自:黄健
2
推荐理由:先前的研究已经有许多工作利用深度神经网络提取鲁棒的语音情感特征,主要有利用无监督学习自编码器及变体进行提取和利用大量语音数据预训练的神经网络进行提取。本文基于区分性学习的思路,学习鲁棒的语音情感特征使相同情感类别的距离减小,不同情感类别的距离增大。系统的输入包括两个同类别的样本和一个不同类别的样本,经过变长模块处理为等长输入,利用长短时记忆模型进行情感时序编码,生成有效的鲁棒的情感特征向量,训练目标包括区分性损失和监督交叉熵损失两个任务。
荐理由来自:黄健
3
推荐理由:语音情感识别是一个低资源的任务,情感数据量较小。本文提出利用半监督自编码器来提高语音情感识别的准确率。模型的训练包括无监督重建损失和监督分类损失,并且将无情感标签的语音样本单独分为一类,使模型能够充分利用无情感标签的数据进行训练,能够减小所需的情感数据样本,在不同的实验数据库上均表明所提方法的有效性。
荐理由来自:黄健
4
推荐理由:语音情感识别是一个多对一的问题,以前的解决方式是通过对每帧预测结果投票或者在特征层池化的方式解决。本文假设一句话的状态两种状态的链式结构,包括情感状态和非情感状态如静音、停顿等,利用语音识别中常用的CTC模型进行语音情感建模。实验结果表明,CTC模型能够有效地识别语音情感状态,并且将一些非情感表达时刻识别未非情感状态,并取得了良好的效果。
推荐理由来自:黄健
5
推荐理由:这篇文章可以看做是端到端语音合成的开山之作,文章提出了一个深度圣经网络模型,直接生成原始的音频波形。
推荐理由来自:郑艺斌
6
推荐理由:不同于WaveNet结构,tacotron主要采用的结构为基于encoder-decoder的Seq2Seq的结构来是将文本转化为语音。其中还引入了注意机制(attention mechanism)。Tacotron在自然感(naturalness)方面优于已在生产中应用的参数系统(parametric system)。此外,由于 Tacotron 是在帧(frame)层面上生成语音,所以它比样本级自回归(sample-level autoregressive)方式快得多。
推荐理由来自:郑艺斌
7
推荐理由:谷歌推出了新的语音合成系统 Tacotron 2,包括一个循环序列到序列特征预测网络和一个改良的 WaveNet 模型。Tacotron 2 是在过去研究成果 Tacotron 和 WaveNet 上的进一步提升,可直接从文本中生成类人语音,相较于专业录音水准的 MOS 值 4.58,Tacotron 2 取得了 4.53 的 MOS 值。
推荐理由来自:郑艺斌