专栏首页arxiv.org翻译专栏一种用于语音情感识别中转移学习的改良距离损失的连体神经网络(CS CV)
原创

一种用于语音情感识别中转移学习的改良距离损失的连体神经网络(CS CV)

自动情感识别在人机交互过程和物联网技术设计中发挥着重要作用。然而,情感识别系统的一个普遍问题在于可靠标签的稀缺。通过对感兴趣的样本之间的成对差异进行建模,连体网络可以帮助缓解这一挑战,因为它比传统的深度学习方法需要更少的样本。在本文中,我们提出了一种距离损失,它可以应用在连体网络微调上,通过基于相同和差异类对之间的相关距离来优化模型。我们的系统使用源数据的样本来预训练所提出的连体神经网络的权重,并根据目标数据进行微调。我们提出了一个使用语音的情感识别任务,因为语音是最普遍和最经常使用的生物行为信号之一。我们的目标数据来自 RAVDESS 数据集,而 CREMA-D 和 eNTERFACE'05 分别被用作源数据。我们的结果表明,所提出的距离损失能够大大有利于连体网络的微调过程。同时,与冻结层数相比,源数据的选择对连体网络性能的影响更大。这些都表明,在传递学习领域,应用 Siamese 网络和建模对偶差异进行自动情感识别具有很大的潜力。

原文题目:A Siamese Neural Network with Modified Distance Loss For Transfer Learning in Speech Emotion Recognition

原文:Automatic emotion recognition plays a significant role in the process of human computer interaction and the design of Internet of Things (IOT) technologies. Yet, a common problem in emotion recognition systems lies in the scarcity of reliable labels. By modeling pairwise differences between samples of interest, a Siamese network can help to mitigate this challenge since it requires fewer samples than traditional deep learning methods. In this paper, we propose a distance loss, which can be applied on the Siamese network fine-tuning, by optimizing the model based on the relevant distance between same and difference class pairs. Our system use samples from the source data to pre-train the weights of proposed Siamese neural network, which are fine-tuned based on the target data. We present an emotion recognition task that uses speech, since it is one of the most ubiquitous and frequently used bio-behavioral signals. Our target data comes from the RAVDESS dataset, while the CREMA-D and eNTERFACE'05 are used as source data, respectively. Our results indicate that the proposed distance loss is able to greatly benefit the fine-tuning process of Siamese network. Also, the selection of source data has more effect on the Siamese network performance compared to the number of frozen layers. These suggest the great potential of applying the Siamese network and modelling pairwise differences in the field of transfer learning for automatic emotion recognition.

原文作者:Kexin Feng, Theodora Chaspari

原文地址:https://arxiv.org/abs/2006.03001

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 精选论文 | 情感语音识别与合成【附打包下载】

    人机交互是人工智能的重要研究热点。而关于情感的研究使得人机交互变得更加有温度。情感语音识别要求从语音中准确的识别人类所具有的情感表达,有助于机器对于我们语义的理...

    马上科普尚尚
  • AI探索(一)基础知识储备

    凡是通过机器学习,实现机器替代人力的技术,就是AI。机器学习是什么呢?机器学习是由AI科学家研发的算法模型,通过数据灌输,学习数据中的规律并总结,即模型内自动生...

    周希
  • 金融/语音/音频处理学术速递[6.17]

    【1】 The Economic Impact of Critical National Infrastructure Failure Due to Spac...

    公众号-arXiv每日学术速递
  • ECCV 2020 亮点摘要(下)

    在本文中,作者重新审视了迁移学习的简单范式:首先在一个大规模标记数据集(例如JFT-300M和ImageNet-21k数据集)上进行预训练,然后对目标任务上的每...

    LiveVideoStack
  • 2015伦敦深度学习峰会:来自DeepMind、Clarifai、雅虎等大神的分享

    用户1737318
  • 深度学习笔记

    该数据库有:10类标签,50000个训练数据,10000个测试数据,大小均为32*32。

    魏晓蕾
  • 2015伦敦深度学习峰会笔记:来自DeepMind、Clarifai等大神的分享

    上周,我有机会参加在伦敦举行的第三届深度学习峰会,上两届分别在旧金山和波士顿举行。 深度学习峰会由 RE.WORK主办,汇集了从工业领域到学术领域不同背景的专业...

    CSDN技术头条
  • 给机器学习面试者的十项建议 | 面试官角度

    在过去的一年里,我采访了一些在Expedia Group担任数据科学职位的人,职位从入门级到高级的都有。我想分享我的经验,这些经验适用于对申请数据科学职位的人。...

    AI研习社
  • 王的机器带你学 MIT 深度学习导论课

    深度学习并不是和机器学习并列的一个科目,而且用神经网络模型来处理机器学习里的有监督学习、无监督学习和强化学习这些子类 (注意这些红蓝绿颜色对应的名词),如下图所...

    用户5753894
  • 网络表征学习综述

    当前机器学习在许多应用场景中已经取得了很好的效果,例如人脸识别与检测、异常检测、语音识别等等,而目前应用最多最广泛的机器学习算法就是卷积神经网络模型。但是大多应...

    SIGAI学习与实践平台
  • 神经网络图的简介(基本概念,DeepWalk以及GraphSage算法)

    近来,图神经网络(GNN)在各个领域广受关注,比如社交网络,知识图谱,推荐系统以及生命科学。GNN在对图节点之间依赖关系进行建模的强大功能使得与图分析相关的研究...

    AI研习社
  • 教程 | 如何使用TensorFlow构建、训练和改进循环神经网络

    选自SVDS 作者:Matthew Rubashkin、Matt Mollison 机器之心编译 参与:李泽南、吴攀 来自 Silicon Valley Dat...

    机器之心
  • 给机器学习面试者的十项建议 | 面试官角度

    在过去的一年里,我采访了一些在Expedia Group担任数据科学职位的人,职位从入门级到高级的都有。我想分享我的经验,这些经验适用于对申请数据科学职位的人。...

    磐创AI
  • 必看,10篇定义计算机视觉未来的论文

    导语:如果你没能参加 CVPR 2019 , 别担心。本文列出了会上人们最为关注的 10 篇论文,覆盖了 DeepFakes(人脸转换), Facial Rec...

    AI科技大本营
  • 业界 | 作画、写诗、弹曲子,AI还能这么玩?

    随着深度学习取得的成功,算法研究已经进入了另一个人类认为不受自动化技术影响的领域:创造引人入胜的艺术品。

    CDA数据分析师
  • ECCV 2020 亮点摘要(上)

    原文链接 / https://yassouali.github.io/ml-blog/eccv2020/

    LiveVideoStack
  • 业界 | 作画、写诗、弹曲子,AI还能这么玩?

    随着深度学习取得的成功,算法研究已经进入了另一个人类认为不受自动化技术影响的领域:创造引人入胜的艺术品。

    机器之心
  • 即插即用:把仿生模块和CNN拼接,对抗攻击鲁棒性显著提高!

    如今,深度学习已经不仅局限于识别支票与信封上的手写文字。比如,深度神经网络已成为许多CV应用的关键组成部分,包括照片与视频编辑器、医疗软件与自动驾驶汽车等。

    AI科技评论
  • 万字综述 | 一文读懂知识蒸馏

    近年来,深度神经网络在工业界和学术界都取得了成功,尤其是在计算机视觉任务方面。深度学习的巨大成功主要归因于其可扩展性以编码大规模数据并操纵数十亿个模型参数。但是...

    AI异构

扫码关注云+社区

领取腾讯云代金券