首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

揭开语音识别系统在托福口语中的神秘面纱

出品:SATPEDIA教书匠阿伦团队

字数:4.1k(预计阅读时间:20分钟)

建议:先收藏,再阅读

上周六我们介绍了机器批改在托福写作中的应用,不少同学留言希望能继续看到与托福考试相关的科普短文。今天我们就为大家揭开托福口语评分中语音识别(ASR)系统的面纱。

语音识别领域有着悠久的研究历史,在过去的几十年里面,研究人员从最简单的阅读式的语音识别情况开始,逐渐转向越来越复杂的场景。现在即便是在以前认为非常难的自由对话形式的语音识别中,机器也已经能够达到甚至超过人的识别水准。

1. 语音识别技术的理论依据:

语音识别技术的理论依据是Bachman对于语言交际能力(Communicative Language Ability,CLA)的定义。Bachman的定义分成三个方面:语言能力(language competence)、策略能力(strategic competence)与心理生理机制(psychophysiological mechanism)。语言交际能力是一种动态模型,各成分之间具有互动性。

图1是Bachman等提出的语言使用者特质与语言使用任务特征之间的互动关系。

随着Bachman理论的发展和语言教学领域的深入,语言交际能力观已成为共识:语言学习不仅是记忆语言知识,还需要完成交际任务,其中必然涉及语境、话题、交际主体的内隐特征等因素。

2. ETS口语自动评分体系的ASR系统:

ETS所用的口语自动评分体系中的第一个组件(the first component)是ASR系统,该系统可口语输出的内容进行数字化解码、采集语音样本,并为每个口语段生成一个带时间标注的假设。如果我们仔细想想语音识别这个问题的话,大家都会看到,语音识别其实就是一个从语音信号序列转化为文字或者词序列的问题。这也就是为什么很多研究人员都一直认为要解决这个问题其实只要找到一个非常有效的,从一个序列到另外一个序列转换的模型就可以了。

为此语言学家们做了一个实验模型:

标注蓝色的问题部分和标注红色的答案部分。如下是参与者实时语音解码示意图。

a. 在每个试验中,参与者都会听到一个问题,并在屏幕上看到一组可能的答案选择。

b. 当屏幕上出现绿色的响应提示时,指示参与者自由选择并口头给出答案之一。

c. 同时,从大脑跨颞叶和额叶皮层植入的ECoG电极(脑皮层电图)获得大脑皮质活性,然后实时过滤从而提取出伽马波的频率。

d. 通过计算机进行被试的话语检测(Utterance Detection)。

e. 将计算机模型检测出的话语进行分类(Utterance Classification), 并进行语音的相应解码(Decoding)。

f.可能性最高的被试回答作为解码后的问题输出。为了整合问题和答案,模型设计者设计了context prior(上下文先验)机制,在语义分割中引入上下文先验,以使每个答案仅适用于某些问题。

h. 将这些上下文先验与预测的被试回答可能性相结合,以获得答案先验。

i. 当语音检测模型检测到回答事件时,神经活动的时间窗口将传递到答案分类器,该分类器使用电话级别的维特比解码来计算答案发声的可能性。

j. 上下文整合模型将这些被试回答可能性与答案先验相结合,以得出答案后验概率(紫色)。k具有最高后验概率的答案作为解码后的答案输出。

2.1

关于模型解释中的伽马波我做一下补充:

大脑神经元使用离子流入和流出每个细胞所产生的电脉冲进行通信( the flow of ions into and out of each cell)。尽管无法通过EEG的电极拾取单个激发神经元,但是当一组神经元一次又一次地被激发时,它会以振荡的电波纹形式出现,并席卷整个大脑。

频率最高的是伽马波(gamma activity),频率范围从25到140赫兹。人们在处于峰值浓度时经常表现出很多这种活动。比例尺的另一端是三角波(delta activity),其频率最低,大约为0.5至4赫兹。三角波往往发生在深度睡眠中

语音检测模型使用高伽马波的时间以及空间模型来预测在被试在某个时间点是否听到了问题或尝试回答。

在话语鉴别阶段(utterance classification)当语音检测模型检测到音频波动时,该高伽马波的信号将传递给模型中的识别器,该问题识别器使用专业级别的维特比解码( Viterbi decoding)来计算被试进行发声的可能性。

3. 自然语言理解(NLU)板块:

模块化的对话系统:分模块串行处理对话任务,每一个模块负责特定的任务,并将结果传递给下一个模块,通常由NLU(Natural Language Understanding,自然语言理解)、DST(Dialogue State Tracking,对话状态追踪)、DPL(Dialogue Policy Learning,对话策略学习)、NLG(Natural Language Generation,自然语言生成)4个部分构成。在具体的实现上,可以针对任一模块采用基于规则的人工设计方式,或者基于数据驱动的模型方式。本文针对NLU进行详细展开。

NLU:将用户输入的自然语言语句映射为机器可读的结构化语义表述,这种结构化语义一般由两部分构成,分别是用户意图(user intention)和槽值(slot-value)。

图4:面向任务的对话系统的主要模块

意图和槽位共同构成了“被试动作”,机器是无法直接理解自然语言的,因此用被试动作的作用便是将自然语言映射为机器能够理解的结构化语义表示。

意图识别,也被称为SUC(Spoken Utterance Classification),顾名思义,是将被试输入的自然语言会话进行划分,类别(classification)对应的就是被试意图。例如“今天天气如何”,其意图为“询问天气”。自然地,可以将意图识别看作一个典型的分类问题。。面向任务的对话系统中的意图识别通常可以视为文本分类任务。同时,意图的定义与对话系统自身的定位和所具有的知识库有很大关系,即意图的定义具有非常强的领域相关性。

槽位,即意图所带的参数。一个意图可能对应若干个槽位,例如询问公交车路线时,需要给出出发地、目的地、时间等必要参数。以上参数即“询问公交车路线”这一意图对应的槽位。语义槽位填充任务的主要目标是在已知特定领域或特定意图的语义框架(semantic frame)的前提下,从输入语句中抽取该语义框架中预先定义好的语义槽的值。语义槽位填充任务可以转化为序列标注任务,即运用经典的IOB标记法,标记某一个词是某一语义槽的开始(begin)、延续(inside),或是非语义槽(outside)。

要使一个面向任务的对话系统能正常工作,首先要设计意图和槽位。意图和槽位能够让系统知道该执行哪项特定任务,并且给出执行该任务时需要的参数类型。为了方便与问答系统做异同对比,我们依然以一个具体的“询问天气”的需求为例,介绍面向任务的对话系统中对意图和槽位的设计。

被试输入示例:“今天上海天气怎么样”

被试意图定义:询问天气,Ask_Weather

槽位定义:

槽位一:时间,Date

槽位二:地点,Location

“询问天气”的需求对应的意图和槽位如图5所示。

图5:意图与槽位定义

在上述示例中,针对“询问天气”任务定义了两个必要的槽位,它们分别是“时间”和“地点”。

4. ASR系统对托福口语的应用:

值得一提的是:托福考试在口语部分采用Speech Rater与评分员共评的方式,使得托福考试在全面准确地反映应试者英语能力的同时,杜绝由于面对面和单一评分员所导致的评分偏见,为大家提供100%公平、公正的考试。

SATPEDIA持续为你的托福学习保驾护航!

参考文献

1. Boatman, D. F., Hall, C. B., Goldstein, M. H., Lesser, R. P. & Gordon, B. J. Neuroperceptual differences in consonant and vowel discrimination: As revealed by direct cortical electrical interference. Cortex 33, 83–98 (1997).

2. Binder, J. R. et al. Human temporal lobe activation by speech and nonspeech sounds. Cereb. Cortex 10, 512–528 (2000).

3. Canolty, R. T. et al. Spatiotemporal dynamics of word processing in the human brain. Front. Neurosci. 1, 185–196 (2007).

4. Mesgarani, N., Cheung, C., Johnson, K. & Chang, E. F. Phonetic feature encoding in human superior temporal gyrus. Sci. (80-.). 343, 1006–1010 (2014).

5. Lotte, F. et al. Electrocorticographic representations of segmental features in continuous speech. Front. Hum. Neurosci. 09, 1–13 (2015).

6. Carey, D., Krishnan, S., Callaghan, M. F., Sereno, M. I. & Dick, F. Functional and quantitative MRI mapping of somatomotor representations of human supralaryngeal vocal tract. Cereb. cortex 27, 265–278 (2017).

7. Conant, D. F., Bouchard, K. E., Leonard, M. K. & Chang, E. F. Human sensorimotor cortex control of directly-measured vocal tract movements during vowel production. J. Neurosci. 38, 2382–17 (2018).

8. Chartier, J., Anumanchipalli, G. K., Johnson, K. & Chang, E. F. Encoding of articulatory kinematic trajectories in human speech sensorimotor cortex. Neuron 98, 1042–1054.e4 (2018).

9. Mugler, E. M. et al. Differential representation of articulatory gestures and phonemes in precentral and inferior frontal gyri. J. Neurosci. 4653, 1206–1218 (2018).

10. Pasley, B. N. et al. Reconstructing speech from human auditory cortex. PLoS Biol. 10, e1001251 (2012).

11. Moses, D. A., Mesgarani, N., Leonard, M. K. & Chang, E. F. Neural speech recognition: Continuous phoneme decoding using spatiotemporal representations of human cortical activity. J. Neural Eng. 13, 056004 (2016).

12. Moses, D. A., Leonard, M. K. & Chang, E. F. Real-time classification of auditory sentences using evoked cortical activity in humans. J. Neural Eng. 15, 036005 (2018).

13. Dichter, B. K., Breshears, J. D., Leonard, M. K. & Chang, E. F. The control of vocal pitch in human laryngeal motor cortex. Cell 174, 21–31.e9 (2018).

14. Cheung, C. & Chang, E. F. Real-time, time-frequency mapping of event-related cortical activation. J. Neural Eng. 9, 046018 (2012).

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200415A08L3Y00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券