本文介绍一篇于计算机领域顶级会议ACM MM 2020发表的论文《SST-EmotionNet: Spatial-Spectral-Temporal based Attention 3D Dense Network for EEG Emotion Recognition》,该研究提出了一种基于注意力机制的3D DenseNet对多媒体刺激产生的情感脑电信号进行分类,该模型在统一的框架下同时提取数据中的空间、频率、时间特征;并且设计了一种3D注意机制来自适应地探索具有判别力的局部模式提升情绪分类效果,在现有的多个数据集上分类表现均为最优。该文提出的模型是一个多变量脑电信号的通用框架,可以被拓展到其余信号分类任务中。
第一作者:
贾子钰,北京交通大学计算机与信息技术学院博士生,指导老师是林友芳教授和王晶副教授;计划于2021年在麻省理工学院进行博士联合培养,指导老师是Roger Mark教授(IEEE Fellow);主要研究兴趣集中于生理信号的分析与挖掘、深度学习理论与方法研究;目前已于IJCAI、ACM MM、ICDM、ECML-PKDD等会议或期刊发表论文8篇。
论文链接:
https://dl.acm.org/doi/abs/10.1145/3394171.3413724
论文代码链接:
https://github.com/ziyujia/SST-EmotionNet
情绪会影响人类的行为,且在日常生活中发挥着重要作用。许多精神疾病与情绪有关,例如自闭症和抑郁症。因此,情绪常被用作评估患者精神障碍的参考。越来越多的研究人员专注于针对特定刺激模式引起的不同情绪的脑电图分析。研究主要集中在使用多媒体材料(包括图像,声音,文本等)设计实验来刺激大脑并暴露其认知活动以进行情感分类。
2.1.1 挖掘脑电信号时-频-空特征的互补性。
现存的脑电情绪模型大多仅单独使用了脑电信号的时域、频域、空域信息或是以上两种特征的组合。这些模型忽略了脑电信号时-频-空特征之间的互补性,会在一定程度上限制脑电分类模型的性能表现。如何利用脑电信号中时-频-空特征之间的互补性,这是一个挑战。
2.1.2 捕获时-频-空特征之间的局部特征。
脑电信号的局部时-频-空特征中会存在一些反映大脑情绪的局部特征。如图中的红框所示,受试者处于积极情绪时,大脑颞叶在
频段下的激活程度会比消极时更高。这些局部特征的存在有助于情绪的识别。因此,如何捕获情绪识别任务中脑电信号的局部时-频-空特征是另一个挑战。
SST-EmotionNet的总体架构如图所示。我们总结了本文模型的四大关键点:
脑电信号在不同情绪状态下的时-频-空特征激活中且存在一些有判别力的局部特征。我们设计了一种空-频/时注意力机制(SST-Attention)用于动态捕获这些有价值的局部特征。SST-Attention由两个子组件构成:空间注意力机制与频段/时间注意力机制。
为了加强特征传播、达到更好的参数效率,受到2D DenseNet的启发,我们设计了一种3D密集连接模块(3D Densely Connected Module, 3DCM)。每个3DCM由若干个密集连接的伪3D卷积组成。频-空流中的3DCM结构如图所示。
SST-EmotionNet从频空流中提取脑电信号的频空特征,并从时空流中提取脑电信号的时空特征。频空流和时空流的输出被融合层所融合,从而进行高精度分类。融合层由连接层和具有
激活的完全连接层组成。
我们在SEED(SJTU Emotion EEG Dataset)与SEED-IV数据集上评估了我们提出的模型。SEED数据集包含来自15名受试者在3个时间段内观看的15个能够诱发3种情绪电影片段的EEG记录;SEED-IV数据集则包含来自15名受试者在3个时间段内观看的15个能够诱发4种情绪电影片段的EEG记录。EEG信号在5个频带下的差分熵特征(differential entropy, DE)被提取作为输入的频域特征。
我们与8种Baseline方法进行了比较,结果如表2所示:
SST-EmotionNet在两个数据集上均取得了优于所有基线方法的性能。我们推测模型分类性能提升原因有以下几点:
为了进一步验证我们模型各个组件的有效性,我们设计了一系列消融实验。
双流消融:我们首先将双流的模型结构消融成了单流的模型结构,实验结果如图所示:
在使用双流模型的情况下,模型的准确率能够比单独使用时-空、频-空流的模型分别高出9.48%与3.51%。该结果表明利用不同特征之间的互补性能够有效提高分类准确率。
注意力机制消融:我们对SST-Attention的两个子组件分别进行了消融,实验结果如图所示:
在消融各个注意力机制时,各类评价指标均有下降。如仅使用时/频注意力机制的模型比原模型的分类准确率下降了1.94%,仅使用空间注意力机制的模型则下降了3.30%。该实验结果表明了SST-Attention模块能够捕获有价值的局部特征从而提高模型的分类性能。
本文提出了一种脑电情绪识别模型SST-EmotionNet,该模型使用双流的结构同时捕获脑电信号具有互补性的空间、频率、时间三类特征;同时,设计了一种空-频/时注意力机制,使该模型能够动态关注一些对情绪识别任务较有辨识度的时-频-空局部模式。在公开的脑电情绪识别数据集SEED与SEED-IV上的实验表明,该模型有着出色的性能优于传统的基线方法。此外,该文提出的模型是一个多变量生理时间序列的通用框架,未来可以应用于睡眠分期、疲劳驾驶监测等相关领域中。
论文信息:
Jia Z, Lin Y, Cai X, et al. SST-EmotionNet: Spatial-spectral-temporal based attention 3D dense network for EEG emotion recognition[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 2909-2917.
https://ziyujia.github.io/Chinese-Reading-Materials/Materials/SST-EmotionNet/SST-EmotionNet.html