前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ACM MM 2024:基于多尺度融合的脑控说话人提取方法

ACM MM 2024:基于多尺度融合的脑控说话人提取方法

作者头像
脑机接口社区
发布2024-07-17 15:27:50
1000
发布2024-07-17 15:27:50
举报
文章被收录于专栏:脑机接口
近日,发表在CCF A类会议上的一篇文章提出了一种用于脑控说话人提取的多尺度融合网络,使用端到端架构充分提取EEG信号和语音信号的多模态融合特征。相关研究成果以MSFNet: Multi-Scale Fusion Network for Brain-Controlled Speaker Extraction为题发表于the 32nd ACM International Conference on Multimedia (ACM MM 24)。

作者:范存航,张晶晶,张宏玉,项旺,陶建华,李心慧,易江燕,隋典伯,吕钊*(通讯作者)

背景介绍

人类大脑具有出色的选择性听觉注意能力,使个体能够在多说话人环境(如鸡尾酒会)中,仅提取目标听觉信息,同时忽略干扰语音。但对于患有听力损失的听者来说,这是一个重大挑战。在过去的十年里,语音增强和说话人提取算法的快速发展推动了助听器的进步,并作为前端语音处理技术来去除背景噪声或提取清晰的目标语音,以便投入语音应用,例如语音活动检测、说话人日志和语音合成等。但这些方法仍然缺乏人类选择性注意神经机制的有效性,实际应用中会受到环境限制。为了从多说话人混合语音中分离出目标语音,而不需要任何预注册的先验信息(例如目标说话人的身份信息),提出了一个解决方案是解码听者的大脑神经信号以确定目标说话人,使系统具备主动感知能力。根据神经科学的最新研究,证明了听者的听觉注意可以从大脑活动的记录中解码。EEG信号为研究皮层神经活动提供了一种非侵入性且有效的方法,这使得它特别适合于听觉注意检测(AAD)任务。然而,如何更有效地利用EEG信号和语音中所包含的针对目标说话人的共同信息仍是一个难题。

实验方法

在本文中,我们提出了一种多尺度融合网络(MSFNet)用于脑控说话人提取,这是一个端到端的时域模型。MSFNet方法通过所记录的EEG信号直接建模听者的注意力方向,以提取目标语音。它主要包括四个部分:语音编码器、EEG编码器、说话者提取网络和语音解码器。为了充分利用语音信息并更准确地捕捉语音的时间特征,语音编码器将混合语音波形的片段编码为具有不同时间尺度的多尺度语音嵌入。在EEG编码器中,使用图卷积网络(GCN)有效地提取EEG试验数据中的非欧几里得数据,获得目标说话人信息的特征表示。最后,在说话者提取网络中,这些多尺度语音嵌入与EEG特征分别进行融合,并估计出相应的感受掩码以提取目标说话人。在主要的Cocktail Party 数据集上的实验结果显示,所提出的MSFNet模型在SI-SDR和PESQ指标上相对于最先进方法分别改进了11.5%和13.6%。

接着,我们提出了一个创新性的音频-视频脑电数据集,简称为AVED数据集,旨在促进听觉注意解码和脑控说话者提取等相关方向的研究。为了模拟真实世界的感知环境,AVED数据集中包含了同时提供视频和音频刺激以及仅有音频作为刺激的情境,提供更丰富的模态信息。在表1中介绍了本工作中所使用数据集的详细设置。

实验结果

  • 与基线模型结果对比分析

在 Cocktail Party数据集上的实验结果:在该数据集上进行的实验使用了全部受试者的数据,网络训练过程不提供任何关于目标说话人的先验身份信息,做到subject-independent的设置,即未知目标说话人提取。在Table2中的结果表明,所提出的MSFNet模型在SI-SDR、STOI和PESQ方面分别比BASEN方法有1.33dB, 0.02, 0.3的相对改善。

在所提出的AVED数据集上的实验结果:由于在AVED数据集中,只使用了受试者注意同一个说话人的试验数据去进行网络训练和测试推理,将这种实验设置称为speaker-dependent提取,即已知目标说话人提取。在这种设置下,同样将所提出方法和UBESD、BASEN模型进行了比较,结果如表2所示。

因此,可以得出结论,在不同的数据集和不同实验设置中,与其他现有的EEG-语音多模态说话人提取基线方法相比,MSFNet模型仍然表现出竞争力的性能。

  • 消融实验分析

在表3中,我们探讨了分别融合多尺度语音嵌入和EEG嵌入想法的有效性。可以看到,覆盖三种不同时频分辨率的滤波器组合表现最佳,SI-SDR为12.89 dB,STOI为0.88,PESQ为2.51。此外,在单尺度语音编码器设置下的实验结果比较中,只使用长度为36个样本(约0.0025秒)的滤波器实现小窗口获得了最佳系统性能,其SI-SDR、STOI和PESQ的值分别为12.21 dB、0.88和2.34。随着滤波器数量的增加,例如共同使用长度为36个样本和长度为147个样本(0.01秒)的滤波器,实验结果进一步提高。

在使用EEG信号和语音进行多模态融合的说话者提取网络中,我们比较了使用DPRNN结构和TCN结构的性能。MSFNet网络使用4个重复的DPRNN块来估计感受掩码,同时我们将采用堆叠4次的基于深度一维卷积层的TCN块来估计感受掩码的网络称为MSFNet(TCN)。如表4所示,可以清楚地观察到,所提出的MSFNet在所有指标上显著优于MSFNet(TCN)。

为了说明在EEG编码器中加入GCN层有助于学习不同脑区之间的相关性,提高说话人提取性能,我们在表5中比较了有无GCN的影响。为了调整到最合适的GCN层数,还衡量了其层数从1到4对实验结果的影响。当使用3层GCN时,模型在所有指标上都取得最好的结果。

论文引用:

Maryam Hosseini, Luca Celotti, and Éric Plourde. Speaker-independent brain enhanced speech denoising. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 1310–1314. IEEE, 2021.

Maryam Hosseini, Luca Celotti, and Eric Plourde. End-to-end brain-driven speech enhancement in multi-talker conditions. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30:1718–1733, 2022.

Jie Zhang, QingTian Xu, Qiu-Shi Zhu, and Zhen-Hua Ling. BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions. In Proc. INTERSPEECH 2023, pages 3117–3121, 2023.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 脑机接口社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档