基于颅内脑电信号和RNN的语音转译技术

脑机接口社区

发布于 2020-06-30 16:13:59

1K0

发布于 2020-06-30 16:13:59

文章被收录于专栏：脑机接口

来自Chang Lab: HTTP://changlab.ucsf.edu/publications/speech-lab

本次分享的是来自Nature Neuroscience上的一篇文章：Machine translation of cortical activity to text with an encoder-decoder framework.

论文作者：Joseph Makin, David A Moses, Edward F Chang.

Highlights:

文章采用了端到端(end-to-end)的网络架构，建立了沟通颅内皮层电信号与语音信息解码的技术。能够达到最低3%的文字错误率。
Decoder RNN 具有学习句子结构的能力，即使decoder RNN预测句子有误，也能在多数情况下转译出合理的亚句（subsentence）结构。
跨被试和数据集的迁移学习策略显著降低了文字错误率（WER）。这表明encoder-decoder既能学习对句子分类（encoder）又能学习句子重建（decoder）。

导言

语音首次从脑信号中解码至今已过去十年，但是解码的准确度和速度仍然远远落后于自然语言。在此之前的口语语音解码技术也仅仅能实现单音节，或100词左右的连续语音下，约40%的词汇判断正确率。这篇文章展示了一种以高准确度和高速（接近自然语言速率）为特点的脑电语言解码方法。作者通过监控四名女性癫痫患者大声重复30-50个句子组成的数据集的脑活动信号，训练深度学习模型，并在测试集中获得了最低可达3%的错误率。这种方法已达到类似同声传译的速度，令人瞩目。

正文

▲▲▲

这项研究借助癫痫病人病灶定位的ECoG技术，在病人语音处理相关的皮层上放置数百个微电极，记录颅内脑电信号。引入机器语言翻译中常用的具有长短期记忆（Long Short-Term Memory， LSTM）的深度循环神经网络，有效的实现了从脑电到文字的转译。解码流程图见图1。

图1. 解码流程

被试阅读材料来自两个数据库（MOCHA-TIMIT（460句，约1800个新词），picture descriptions（30句，125个新词））。被试被要求重复大声朗读材料库中筛选的语句。在阅读材料的同时，覆盖在被试颅内外侧裂周区（peri-Sylvian）的ECoG电极阵列同时记录信号（见图5）。在high-γ（70-150Hz）处的信号以200Hz的频率，剪切成单句长度并输入人工神经网络。早期阶段的网络学习时间卷积滤波降采样。每个滤波器（覆盖所有电极，每个电极12个采样点宽度）将脑电信号降维成为单个特征序列的采样点。然后滑动窗口生成下一个特征序列的样本。以这种方式产生了一百个特征序列，然后传递给encoder RNN，后者学会在单个隐藏状态下对其进行汇总。encoder RNN也同时训练用以预测语音音频信号的梅尔倒谱系数（Mel-frequency Cepstral Coefficients，MFCCs）。最终的encoder隐藏状态（hidden state）会初始化decoder RNN，后者会根据给定的前一个单词及其自身的当前状态来预测序列中的下一个单词。在模型测试时，利用了先前预测成功的单词。

图2. 句子解码的文字错误率（WERs）; a. 比较了六种计算模型的WERs；b. WERs随被试重复训练次数变化趋势。

首先作者报告了六种解码计算模型的比较结果。这其中，作者的Encoder-decoder模型表现最为突出。从图2a中可以发现encoder-decoder的文字错误率（WERs）约为3%。而当前较为流行的语音解码技术的WER仅能实现60%左右（并且仅能解码100词）。图2b为高WER表现下的数据集大小测评结果。发现当被试重复读词超过15次时，WER已低于25%。这个结果在最佳被试b上，仅4次即可重复。可以看到在完成了完整训练集的被试b和d上WER已经低于8%，达到专业同声传译水平。

图3. 经迁移学习训练的Encoder-decoder模型的解码MOCHA-1句子的WER

其次，作者利用迁移学习进一步降低模型的WER。由于受外部条件限制无法增加训练集的重复次数，因此作者通过利用额外收集的MOCHA-2和MOCHA-9数据（加入MOCHA-1数据库中，共410个新词）。采用迁移学习方法以希望从提升亚句（subsentence）结构角度提升预测准确性。作者分别进行了三种策略的迁移学习（见图3）。图3中颜色与图2中被试编号对应。每个箱型图中分别列出了未迁移学习（Encoder-decoder），跨被试迁移学习（a,被试b上预训练,b,被试a上预训练,c,被试b上预训练）（+participant TL），训练集以外句子迁移学习（+task TL），包含以上两种模式的迁移学习（+dual TL）四种策略对比。图3a这种跨任务训练将WER降低了31%（Encoder-decoder vs. +task TL）。这意味着Encoder-decoder不仅对句子进行分类，而且进行了重建。因此，此网络具有学习亚句结构信息的能力（见表1）。图3b中，“双迁移学习”（+dual TL）任务的WER同图3a同样显著的降低了36%。在表现最差的被试d上也发现了跨被试迁移学习的显著的WER降低效果。遗憾的是这些MOCHA-TIMIT数据集上的结果虽然显著，但是picture descriptions数据集的被试迁移学习（+participant TL）WER并未降低。亚句结构的提升可以从预测错误的句子中看出，结果如下表所示。

表1. 预测错误句子示例（左侧为原句，右侧为预测有误的句子，a~d为被试编号）

作者通过示例预测有误的句子，佐证decoder具有学习句子结构并提升预测准确性的能力。如，被试a表格左侧中正确发音的句子“a roll of wire lay near the wall”，在被错误的预测为 “will robin wear a yellow lily”，虽然单词预测完全错误，但是后句的句子结构是正确的。当然，这种对亚句结构的学习也不完全是有效的。如 “tina turner is a pop singer”被预测为“did turner is a pop singer”。

图4. 脑区解剖学区域的解码的贡献

紧接着，作者为了确定皮质的哪些区域有助于在训练完成的模型中进行解码，对Encoder-decoder的每个电极的损失函数求导以衡量每个电极的相对重要性。图中阴影部分代表着核密度估计（kernel density estimate）方法展示的解剖学区域上的电极贡献分布情况。图4展示了四名被试解剖学脑区解码贡献高的脑区。由于四名被试的ECoG覆盖范围各不相同（解剖学定位和皮层贡献分布情况如图5）。总体来看，贡献最大的脑区是感觉运动皮层（vSMC）和颞上回（STG）。而这两者恰好是语音产生和感知密切相关的皮层。这一结果在被试a（ECoG覆盖在右半球）中也得到了重复。在电极覆盖范围包含了STG的被试的脑电信号都反映了来自STG中部（vSMC正下方）的较强的贡献。

图5. 电极覆盖脑区和贡献示意图

图5更直观的介绍了四名被试的ECoG电极位置和各个电极的贡献情况。其中被试a电极覆盖区域为右半球，与其他三位被试相反。被试c的电极未能覆盖颞叶部分，因此未能获得被试c的STG的脑活动电信号。图中不同颜色的ECoG网格指代该被试脑区覆盖范围所属的脑区和贡献强度。我们可以直观的看出，图中橙红色(Superior temporal)贡献程度最强，绿色（vSMC）其次。图4和图5的这些结果表明，无论是来自实际的还是预期的语音感知（STG），网络已经学会了解码发给语音发音器（vSMC）的命令和听觉反馈。

图6. 解码过程的图模型，图中圆圈表示随机变量，双层圆圈表示确定性函数。

随后，作者简单地表示了神经活动与音频和句子信息的关系，较为直观的介绍了解码过程。图6a中，上半部分表示真实生成过程。N表示神经活动，A表示音频信号，W表示文字顺序。P(a,w|n)表示神经活动中A,W与N的关系（虽然图模型有表示出W和A是独立的，但仍需如此假设）。下半部分展示了Encoder-decoder模型。S^e表示encoder状态，可以从decoder状态中直接生成音频序列。S^d表示decoder状态，可以生成文字序列。图6b将decoder模型从序列步骤（从<EOS>，W_0到W_J）上展开。此图表示出每个decoder状态的计算都取决于encoder状态和<EOS>或者前一个decoder（S_(J-1)^d）和先前生成的文字(W_J-1)。这样神经活动N就与音频信息A和句子单词W_J的关系就建立了。

图7. 网络结构

在文章的最后，作者展示出了encoder-decoder的网络结构。Encoder或decoder序列同一行内的所有层具有相同的传入和传出权重。从图中可以看出，Encoder的数据以Temporally reversed high-γ从下方输入encoder RNN（长度100（特征序列），宽度12（采样窗宽度）），训练三层LSTM的隐藏状态（hidden state）。训练的encoder RNN 同时被用于预测与ECoG电极信号时频对应的声音信息MFCC。最终生成的encoder 隐藏状态会初始化decoder RNN，并逐步通过当前状态和先前词汇预测下一序列的单词。

总结

这是一篇语音解码角度的最前沿的研究。本文的成功之处有三点：

1）首先，众所周知，长短期记忆（LSTM）的RNN可以提供从复杂序列中提取的当前信息在语音识别领域极为常见；同样Encoder-decoder框架已被证明可以很好地用于机器翻译（类似于语音解码）。此外，对网络进行了端到端的训练，从而无需手动筛选那些我们语音相关知识水平有限的神经特征。

2）其次，在此方法中，最基本的标记元素是单词，而不是以往的方法的音素。介于单词比音素更易辨识，在这两者的权衡过程中，作者选择了以单词而不是音素为单位，降低了解码难度。

3）最后，模型成功的关键是通过两种方式修改了encoder。a）添加辅助惩罚项，使RNN中间层能够预测语音音频的MFCC。b）时间卷积层代替全连接层，有效降采样（10倍），提升了解码速度。

NCC lab的讨论

在讨论学习本文时，我们也同样讨论了当前语音解码的一些未能克服的问题。比如，数据集大小相比此前虽有提升，但从应用的角度来说，本文所采用的MOCHA-TIMIT中的MOCHA-1（50句，250个新词）可能也仍然较小。另一方面，由于实验要求被试必须大声朗读才能收集发声和听觉反馈过程的信息。但如果考虑应用，不发声情况下的解码更具有价值。但不发声情况下的ground truth如何获取，网络如何训练，是尚未解决的问题。一般而言，采用了端到端的网络架构，可解释性较低。但是本文通过对损失函数求导（详细公式见术语3），巧妙地量化了各个电极的贡献，从而（部分）解释了各个脑区的贡献。这种方法也可以扩展到其他基于机器学习的neuroscience的研究中。从工程学角度上，3%的文字错误率十分鼓舞人心，这一结果令人瞩目。 ECoG的巧妙应用是此研究成果的前提之一，但ECoG创面过大，无法长期植入体内。因此，更加无创和微创的方法仍是语音解码最为可期的未来方向。

术语

（1）长短期记忆（Long Short-Term Memory)网络：

一种时间循环神经网络，如本文中decoder RNN就利用了LSTM网络结构。其应用领域广泛，包括文本生成、机器翻译、语音识别、生成图像描述和视频标记等。Google translate 和Apple Siri均有采用此网络进行模型优化。

（2）梅尔倒谱系数（Mel-frequency Cepstral Coefficients，MFCCs）：

组成梅尔频率倒谱（Mel-frequency Cepstrium）的系数，在声音处理领域中，梅尔频率倒谱是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。是用于将人的发声结构与发音相关的语音短时功率谱包络准确对应的一种处理方法。

（3）Encoder-decoder的损失函数，电极贡献即由下列公式求导所得。

是当前状态下decider所预测的词汇概率向量。

第m步的RNN encoder输出向量。

音频信息序列。

口头词句序列。

对发音器的指令、神经语言表征、传出神经拷贝、听觉反馈等

（4）vSMC与STG：分别是腹侧感觉运动皮层（ventral sensorimotor cortex）和颞上回（Superior Temporal gyrus）。二者是公认的与语音感知和语意加工紧密相关的脑区。文中更具体的提到主要贡献区域包含初级听觉皮层（primary auditory areas）中的布罗德曼分区BA41和BA42以及维尔尼克区（Wernicke's area）。

（5）代码开源：作者同样将encoder-decoder代码链接分享在github上。需要提前更新到tensflow 1.15.2版本。感兴趣的朋友可以尝试。附代码：https://github.com/jgmakin/machine_learning

本文作者：NCC lab 于浩

引用：Makin, J.G., Moses, D.A. & Chang, E.F. Machine translation of cortical activity to text with an encoder-decoder framework. Nat Neurosci 23, 575–582 (2020). https://doi.org/10.1038/s41593-020-0608-8

链接：https://www.nature.com/articles/s41593-020-0608-8

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-05-23，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法