前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Science: 位于人类听觉皮层的语调编码

Science: 位于人类听觉皮层的语调编码

作者头像
用户1279583
发布2018-04-08 15:49:43
1K0
发布2018-04-08 15:49:43
举报
文章被收录于专栏:思影科技思影科技

来自美国加州大学旧金山分校的研究人员C.Tang等人近期在《Science》杂志上发文,他们使用颅内电极记录癫痫病人听具有不同声学特征(如声调轮廓,声学内容,音色)的语句时的脑电活动,发现不同的电极编码不同的声学特征,它们在位置上混杂排列但是功能上是完全不同的。编码声调的电极,是编码相对声调轮廓而非绝对声调的。该研究直接证明了不同的声学特性是独立编码的。

研究人员设计并合成了一系列语句,分别在语调,音位内容和发音人三个声学属性上独立且唯一变化,如图1A所示:四种语调——中立、强调第一个词、强调第三个词、疑问句(语音轮廓上是截然不同的,如图1b)。4个不同的语句:具有不同的音位组成。三位发音者:一个合成的男声(f0=83 ± 10Hz),两位合成的女声(f0=187 ± 23 Hz),这两位女声虽然基频相同,但是共振峰频率不同,并且其中一位与男声的共振峰频率相同。

本文的十位被试均为难治性癫痫患者,因治疗需要植入了颅内高密度电极阵列。研究人员记录并分析了被试在听这些语句时的局部场电位,并分析了高频γ波,再根据时间依赖的一般线性模型来确定电极是怎样编码声学属性的。建立的全模型包括单因素声学属性:语调、语句内容、发音者,两两双因素交互以及这三因素的交互。

首先研究人员发现了位于颞上回(STG)的电极可以编码语调信息。如图1所示,三种声学属性主效应显著的电极混杂排列,编码语调的电极记录的神经响应追随语调的重音,而与语句的内容和发音者无关。

图1:STG的神经活动可以区分语调轮廓。(A)不同的语句刺激有不同的语调轮廓。该图是一个示例,语调的重音落在第一个词上(强调1),它的幅度信号,频谱,和音高轮廓(基频)都展示在图中。(B)四种语调的音高轮廓显示如图,左边实线来自女性说话者,右边虚线是男性说话者。(C)在一位被试脑中的电极定位。颜色深浅代表全模型至少在两个时间点上显著(F检测;P<0.05,Bonferroni校正)时,由语调,语句和说话人在该电极上所能解释的最大变异。非显著的电极用灰色表示。具有黑色轮廓的电极表示显著主效应是语调(F检测;P<0.05,Bonferroni校正)。箭头所指电极的活动显示在(D)和(E)中。(D)C中所指电极的单试次反应,上中下分别是不同的语调,左右分别是不同的说话人,每一种语调和说话人中的水平线进一步按语句分类(如左边图例)。Hγ,标准化到基线的高γ波幅度。(E)在每一种语调中的平均神经活动。左右分别是对女性和男性说话者的平均反应(±1 SEM),男性和女性说话人没有重叠的绝对音高(B)。

其次研究人员计算在每一个显著性电极上每种主效应以及交互效应的贡献大小。发现一些电极只对语调不同呈现差别响应,一些电极响应只对语句内容的不同有所不同,而还有一些电极只编码说话人信息。即在单个电极上,语调、语句、说话人三个声学特征是独立编码的,同时交互作用最小也证实了这一点(图2)。

图2:在单个电极上语调,语句和说话人信息的独立神经编码。(A-C)在三个示例电极上对语调的平均神经反应(均值±1标准误差)。在电极1(A)的神经活动可以区分语调,然而在电极2(B)和电极3(C)记录到的活动都不能。黑线指平均神经活动在不同语调间显著不同的时间点(F检测;P<0.05,Bonferroni校正)。(D-F)与(A-C)中相同的电极对每种语句的平均神经响应。黑线指在不同语句间存在显著不同。(G-I)与(A-C)和(D-F)中相同电极上,对每一位说话者的平均神经响应。黑线指不同说话人间存在显著不同的时间点。(J-L)对每一个示例电极,由主效应能解释的唯一方差。粗线指每种主效应显著的时间点。黑线指全模型显著的时间点(F检测;P<0.05,Bonferroni校正)。(M)一位被试编码语调、语句和说话人的电极位点分布。其中电极1、2、3的位置如图所示。饼图面积是正比于所解释的总方差。其中分割的楔形显示的是每个显著性电极上每种刺激维度(用不同的颜色表示)所能解释的相对方差或者成对交互和三重交互所能解释的相对方差。(N)当全模型在十位被试中对所有显著性电极都显著时,由主效应和交互效应能解释方差所占的比例。其中每一个显著性电极依据其编码的最大刺激维度被划分为编码语调(In)、编码语句(Se)和编码身份信息(Sp)(图基盒形图)。饼图显示所能解释的总方差的平均比例。n,电极数目。

然后作者又探究了语句编码是否是由音位选择性驱动的,如图3所示将语句里的音位进行归类分成四组,并根据这四组音位计算音位选择性指数(PSI),发现PSI确实只与语句所能解释的方差呈正相关。说明语句编码确实是由音位选择性驱动的。

图3:区分语句的神经活动是由音位特征选择性驱动的。(A)时间锁定到每个句子音位起始的平均神经响应。每一列代表单个电极的平均响应。音位选择性指数测量是否针对特定音位的响应能与针对其他所有音位的响应区分开来。音位分组成四大类如图左边所示。(B)A中电极的解剖学定位,每一个电极都位于颞上回。(C)每一个显著性电极的语句编码和平均音位选择性指数之间的散点图(r=0.64,p<1*10-20)。这里的数据来自十位被试的177个显著性电极。(D)上图是语调编码和平均音位选择性指数的散点图(r=-0.18,p<0.05),下图是发音人编码和平均音位选择性指数的散点图(r=-0.15,p>0.05)。(E)A中的每一个示例电极对原始刺激集的平均神经响应。每一行代表对不同语句的响应,每一列刻度线指属于每一列最顶部那一类音位的起始。反应的不同颜色表示不同的语调。这些音位选择性的电极对语调并不敏感,不管什么语调都有类似的响应。

接下来作者为了检测语调编码是基于音高的心理声学属性而不是语言信息或者基频的声学能量,创建了两种非语言刺激,一种包含基频,一种不包含基频,但都保留了与语言刺激中相同的语调轮廓(图4)。发现对这三种刺激神经响应类似,说明编码语调轮廓的神经响应确实只基于语调轮廓的心理声学属性。

图4:对语言和非语言中语调的神经响应类似。(A)一个语言示例的声学信号、音高轮廓和频谱。放大图中显示的声学信号表示语言独特的幅度准周期变化特征。(B)非语言示例,包含基频的能量,音高轮廓和A中的语言示例匹配。可以看到谱功率的三条带分别是基频、第二谐波和第三谐波。(C)非语言示例,具有和(A)(B)中相同的音高轮廓,但是不包含基频f0。从音高轮廓开始之前的0.25s到结束加入了粉红噪音。(D)在一个示例电极上的,对语言(左)、带基频的非语言(中)和不带基频的非语言中的语调轮廓的平均神经响应(均值±1标准误)。(E)模拟对语言刺激的神经反应的线性判别分析模型,预测(D)中所示电极上语调情况的准确性。语言训练的模型对于非语言数据(含或不含f0)的准确性是在语言刺激准确率95%之中的。(F)语言刺激的准确率和非语言刺激(左:含f0;右:不含f0)的准确率。每一个点代表来自听每种非语言刺激的被试的显著性电极(含f0:8位被试;不含f0:3位被试)。红色点指那些对非语言刺激的模型表现低于语言刺激准确率95%的电极。灰线指25%的机会表现和表现一致的线。

最后作者为了证明语调编码是基于相对音高而非绝对音高,对比了只包含相对音高的编码模型、只包含绝对音高的编码模型和两种都包含的编码模型,并用这些模型去预测针对合成的语调刺激的神经响应,进一步比较预测表现。发现只有相对音高贡献最大,并能有更好的预测表现。说明语调编码确实是基于相对音高而非绝对音高。

图5:语调的皮层呈现依赖于相对音高编码,而非绝对音高编码。(A)来自TIMIT语言集的示例语句。(B)绝对音高(Hz)特征呈现。小长方块代表绝对音高不同的值。(C)相对音高(在每位说话者音高范围内标准化)的特征呈现。灰线指相对音高为0。(D)来自一个示例电极的音高时域感受野,编码相对而非绝对音高(R2relative=0.03,*;R2absolute=0.00,NS)。感受野显示哪个刺激特征驱动更大的神经反应——在这里,是相对音高具有更高的值。颜色指回归权重(任意单位)。(E)原始刺激集的音高轮廓。(F)原始刺激集中男性和女性说话人在各个语调间的平均音高轮廓。(G)模型预测仅适用于绝对音高。(H)从只有绝对音高的模型中所有男性和女性语句的平均预测反应。(I)模型预测仅适用于相对音高。(J)从只有相对音高的模型中所有男性和女性语句的平均预测反应。(K)对原始刺激集的实际神经反应(均值±1标准误)。这个电极的实际反应被只有相对音高的模型更好的预测(rrel_pred = 0.85; rabs_pred = 0.66)。(L)各个语调下平均的实际神经响应。(M)在相对和绝对音高编码间散点图,神经响应分辨语调的能力显示语调区分与相对音高编码有关,而非绝对音高编码(rrelative_intonation = 0.57, P < 1 × 10−16;rabsolute_intonation = 0.03, P> 0.05)。有颜色的点表示具有显著性的电极(置换检验;R2>零分布的95%)相对和绝对音高编码分别位于上下图。

综上所述,本研究直接证实了在人类听觉皮层颞上回,语言多个维度信息的共同提取,以及各个维度信息的单独编码。

参考文献:Tang C, Hamilton L S, Chang E F. Intonational speech prosodyencoding in the human auditory cortex[J]. Science, 2017, 357(6353): 797-801.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-11-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 思影科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档