脑机接口新应用，利用深度学习对无声语音信号解码

脑机接口社区

发布于 2022-08-17 09:29:30

5980

发布于 2022-08-17 09:29:30

文章被收录于专栏：脑机接口

浙江大学、中国矿业大学和伦敦大学的研究人员研究了可用于识别神经肌肉信号的空间特征和解码器。具体来说，研究人员提出了利用迁移学习和深度学习的方法，将表面肌电信号数据转换为包含丰富的时频域信息的声谱图。对于迁移学习，在大型图像数据集上使用一个预先训练好的Xception模型来生成特征。然后利用提取的特征对三种深度学习方法(MLP、CNN和bLSTM)进行训练，并对其进行评价，以识别词集中的发音肌肉运动。所提出的解码器成功地识别了无声语音，双向长短时记忆的准确率达到了90%，优于其他两种算法。实验结果验证了谱图特征和深度学习算法的有效性。

无声语音解码是一种基于关节神经肌肉活动的脑机接口 (BCI) 的新应用，可减少数据获取和处理的难度。在本研究中，浙江大学、中国矿业大学和伦敦大学的研究人员研究了可用于识别神经肌肉信号的空间特征和解码器。表面肌电图 (sEMG) 数据是从人类受试者在模拟语音情况下记录的。

无声语言数据

捕获与语音相关的 sEMG

研究发声和关节肌之间的关系，研究人员在面部周围选择合适的电极位置，如图1所示。通道2和5是双极诱导，以提高共模抑制比 (CMRR)，而其他的则是导出单极性。通道 1 和 2 记录提口角肌(levator anguli oris)，而通道 4记录extrinsic tongue和二腹肌前腹。通道 3、5 和 6 分别记录颈阔肌、extrinsic tongue和翼外侧。此外，两个参考电极放置在耳后的乳突上。

图1.记录面部和颈部周围的位置

在记录六通道表面肌电信号的同时，训练被试想象按确定的顺序依次说出计算机屏幕上显示的标记词，这就是本文无声言语的含义。在我们的实验中,选择十个汉字,包括“噪”、“1 #”、“2 #”、“前”、“后”、“左”、“右”、“快”、“慢”,“停”,意思是’null’, ’No.1’, ’No.2’, ’forward’,’backward’, ’left’,’right’, ’accelerate’, ’decelerate’, ’stop’。共记录10个单词的有效样本69296个，标签分布情况各不相同，如表1所示。图2展示了一个有效的六通道表面肌电信号示例。

图2 想象用中文说“decelerate”时的六通道表面肌电图 (sEMG) 示例

预处理

应用一个8阶Butterworth带通滤波器(0.15 ~ 300hz)来消除表面肌电信号的直流偏置和高频。得到过滤后的表面肌电信号，如图3b所示。

图3 sEMG预处理。(a)原始sEMG的一个例子，对应图2中的通道2;

(b)通过Butterworth (0.15 ~ 300hz)和notch (50hz)滤波器过滤的表面肌电信号;

(c)二次变异减少(QVR)处理后的sEMG，最大幅度变化小于1 mV。

处理方法

为了有效提取sEMG的时频特征，将原始的六通道sEMG在时域转化为频域，形成以图像表示的谱图。选取当前最先进的模型Xception提取图像特征，分别采用MLP、CNN和bLSTM进行解码。图4描述了sEMG的解码过程。

图4为无声语音解码。(a):表面电极捕捉神经肌肉活动;(b):所有数据通过短时傅里叶变换(STFT)转换为频谱图;(c):使用迁移学习方法从谱图中提取特征;(d):神经网络利用提取的特征解码多通道sEMG。

图5为一个频谱图示例

这图像相互关联，反映了频域中的 sEMG 空间关系。受短视频流的启发，图像被视为固定大小的视频。然后，无声语音解码成为视频分类，通过深度学习方法进行探索。

研究人员在上述特征集探索了三种深度学习方法，即MLP、CNN和bLSTM。图6展示了研究者的解码过程，其中部件(c)∼(g)代表了三个模型的公共结构和组件，只是每个模型中使用了不同的隐藏层和参数。

图6 解码过程。(a) 光谱图。(b) Xception 提取的特征集。(c) 神经网络的输入层。(d) 神经网络的隐藏层。(e) 全连接密集层。(f) Softmax 层作为输出层。(g) 从模型中获得的预测标签。

解码无声语音的多层感知器(MLP)架构

解码无声语音的多层感知器(MLP)架构。

一个特征向量穿过层，输出数字(从0到9)。

解码无声语音的CNN的架构

CNN的结构如图8所示，其中使用了两个带有不同过滤器的卷积层(Conv1和Conv2)来创建特定的feature map。池化层提供了向下采样来减少特征的大小，也有助于防止过拟合。

图8 用于解码无声语音的卷积神经网络 (CNN) 架构

解码无声语音的bLSTM的架构

bLSTM，包括前向 LSTM 和后向 LSTM，捕获双向语义依赖关系。对于六通道 sEMG，bLSTM 往往是一个合适的分类器，因为它可以有效地模拟双向依赖关系。图 9 显示了 bLSTM 架构的细节，由三个双向层、两个密集层和一个 softmax 输出层组成。

图9 用于解码无声语音的双向长短期记忆(bLSTM) 架构

下图提供了训练配置文件。图12a,d给出了MLP的训练细节，其中精度在150 epoch左右稳定，验证损失保持在0.45左右。在图12b,e中，CNN training取得的验证结果比MLP稍好，但是需要大量的epoch。bLSTM在图12c中验证精度最好，为0.92，在图12f中验证损耗最低，为0.26，但是由于bLSTM需要大量的epoch来完成训练，因此其计算效率不如MLP和CNN。验证性能线通常遵循训练过程，这意味着模型通常训练良好，没有明显的过拟合或欠拟合。

图12 三个深度学习模型在特征集上的训练配置文件。(a) 和 (d)：MLP 训练。(b) 和 (e)：CNN 训练。(c) 和 (f)：bLSTM 训练。训练和验证结果都显示在上面的子图中。

图13 三种解码器的混淆矩阵

为了显示测试集的更多预测细节，研究人员计算了混淆矩阵。如图13所示。标签0和8在所有测试预测中准确率最高，而标签1、5和6的准确率相对较低。除了标签5，其他所有的准确性都从图13a,c中有所增加。样品更有可能被归类为标签0或8。此外，所有三种解码器在区分标签4和标签6时有相同的困难。这可能是由类似的神经肌肉活动引起的。

参考：

Wang Y, Zhang M, Wu R M, et al. Silent speech decoding using spectrogram features based on neuromuscular activities[J]. Brain Sciences, 2020, 10(7): 442..

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-07-05，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习