专栏首页arxiv.org翻译专栏视频中多模态情绪识别的上下文动态(multimedia)
原创

视频中多模态情绪识别的上下文动态(multimedia)

情感表达是当今数字平台上用户行为的重要组成部分。虽然多模态情绪识别技术越来越受到人们的关注,但是对于如何在特定的环境下更好地识别情绪,而不是在其他环境下,使用视觉和非视觉特征,人们还缺乏更深入的理解。本研究结合两个关键的语境因素:1)说话人的性别,2)情绪插曲的持续时间,分析由面部表情、语气和文本衍生的多模态情绪特征的影响之间的相互作用。通过使用超过2500个YouTube视频的大数据集,我们发现,尽管多模态特征的表现始终优于双模态和单模态特征,但它们在不同的情绪、性别和持续时间方面表现出显著差异。研究发现,在识别除恐惧外的大多数情绪方面,男性的多模态特征表现得特别好。此外,多模态特征在识别中性、快乐和惊讶方面表现得特别好,在识别悲伤、愤怒、厌恶和恐惧方面表现得特别好。这些发现为开发更能感知情境的情感识别和移情系统提供了新的见解。

原文题目:The Contextual Dynamics of Multimodal Emotion Recognition in Videos

原文:Emotional expressions form a key part of user behavior on today’s digital platforms. While multimodal emotion recognition techniques are gaining research attention, there is a lack of deeper understanding on how visual and non-visual features can be used in better recognizing emotions for certain contexts, but not others. This study analyzes the interplay between the effects of multimodal emotion features derived from facial expressions, tone and text in conjunction with two key contextual factors: 1) the gender of the speaker, and 2) the duration of the emotional episode. Using a large dataset of more than 2,500 manually annotated videos from YouTube, we found that while multimodal features consistently outperformed bimodal and unimodal features, their performances varied significantly for different emotions, gender and duration contexts. Multimodal features were found to perform particularly better for male than female speakers in recognizing most emotions except for fear. Furthermore, multimodal features performed particularly better for shorter than for longer videos in recognizing neutral, happiness, and surprise, but not sadness, anger, disgust and fear. These findings offer new insights towards the development of more context-aware emotion recognition and empathetic systems.

原文作者:Prasanta Bhattacharya, Raj Kumar Gupta, Yinping Yang

原文链接:https://arxiv.org/abs/2004.13274

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 手控跟踪作为虚拟现实交互方式对用户体验的影响(multimedia)

    随着人们对虚拟现实的兴趣日益浓厚,以及可用设备的快速发展和改进,交互的新特性也越来越多。其中一个正在变得非常流行的是手动跟踪,这是一种在虚拟世界中代替控制器进行...

    用户6869393
  • 积极的算法偏见无法阻止同性社交网络的分裂(Social and Information Networks)

    社会网络中的碎片化、回音室及其改进已经成为学术界和非学术界日益关注的问题。本文证明了在同质性假设下,即使在理想的异质性条件下,回音室和碎片化也是高度灵活的社会网...

    用户6869393
  • 作者影响的网络级视图(Social and Information Networks)

    我在这项研究中使用的数据集是2017年发表的一些计算机系统会议和一些控制、非计算机系统会议的论文记录。原始格式是所有这些论文的原始PDF格式。2018年夏天,埃...

    用户6869393
  • 可解释的目标驱动代理及机器人的全面审查和新框架(CS RO)

    自动驾驶代理和机器人的最新应用,例如自动驾驶汽车,基于场景的培训师,探索机器人,服务机器人,已经引起人们对与当前人工智能(AI)系统相关的关键信任相关问题的关注...

    时代在召唤
  • 手控跟踪作为虚拟现实交互方式对用户体验的影响(multimedia)

    随着人们对虚拟现实的兴趣日益浓厚,以及可用设备的快速发展和改进,交互的新特性也越来越多。其中一个正在变得非常流行的是手动跟踪,这是一种在虚拟世界中代替控制器进行...

    用户6869393
  • 体育与政治混搭吗?对主流联盟体育的球迷基础和总统候选人的交叉分析(CS SI)

    考虑到体育和政治的相互作用是非常复杂的,这个跨学科的领域在数据科学的研究中基本没有被触及。鉴于 NBA 和 NFL 等主要体育联盟存在着庞大的球迷群体,我们有必...

    刘持诚
  • 积极的算法偏见无法阻止同性社交网络的分裂(Social and Information Networks)

    社会网络中的碎片化、回音室及其改进已经成为学术界和非学术界日益关注的问题。本文证明了在同质性假设下,即使在理想的异质性条件下,回音室和碎片化也是高度灵活的社会网...

    用户6869393
  • 分享一本关于稀疏信号处理的书给大家,也是我曾读过的教材[附下载链接]

    Sparse Signal Processing 作者/authors M Azghani, F Marvasti 摘要/abstract Convention...

    互联网金融打杂
  • 将社交事件数据应用于蜂窝网络的管理(CS NI)

    互联网提供了越来越多的社交数据源:日历,事件聚合器,社交网络,浏览器等。此外,从这些资源中收集信息的机制(例如Web服务,语义Web和大数据技术)变得更加易于访...

    小童
  • 人工智能治理应该集中化吗?历史的设计课堂(Computers and Society)

    有效的国际人工智能治理还会是碎片化的吗?还是需要一个集中化的国际人工智能组织?我们借鉴了其他国际制度的历史,以确定在集中人工智能治理方面的优势和劣势。还有一些考...

    李欣颖6837176

扫码关注云+社区

领取腾讯云代金券