瑞典语言银行:基于阅读时眼球运动分析的轻度认知障碍检测

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。

这是读芯术解读的第84篇论文

EMNLP 2017 Long Paper

基于阅读时眼球运动分析的轻度认知障碍检测

An analysis of eye-movements during reading for the detection of mild cognitive impairment

瑞典语言银行

The Swedish Language Bank, Department of Swedish

【摘要】我们采用机器学习法方来对眼球的运动追踪得到的信息进行分析来检测轻度认知障碍,相关认知能力的下降往往使患痴呆症的风险的提升。我们进行了两组对比试验(朗读与默读),同时对比了两种结合实验数据的方法(关联与合并)。另外,我们为被读取的词标注上其被浏览的速率和语法类别,并使用这些注释来生成新的特征。最终,我们对是否患有轻度认知障碍的辨别准确度达到了86%。

1 介绍

随着全球人口老龄化现象的加剧,痴呆症的发病率正在增加(Prince et al.,2013)。术语“痴呆症”是指认知上的非典型和病理学下降,这可能是由多方面潜在原因造成的。尽早检测痴呆症的发病很重要,原因包括可以让患者及时接受药物和治疗,改善日常生活质量(如维持适当的营养和卫生),减少独自行动的风险(例如驾驶汽车),并给个人、家庭和照顾者提供充足的准备时间(Solomon and Murphy, 2005; Ashford et al.,2006; Calza et al.,2015)。

在这项研究中,我们使用眼睛跟踪数据和机器学习来探索检测早期微妙的认知障碍迹象的可能性。前人的工作表明奥兹海默症会导致阅读时人的眼球运动轨迹发生变化(Lueck et al., 2000; Ferna ndez et al., 2013; Pereira et al., 2014; Biondi et al.,2017)。然而,这项研究的参与者并没有被诊断为痴呆症,而是患有“轻度认知障碍”,这意味着他们开始出现认知衰退的早期迹象,并且发展为痴呆症的风险增加。我们测试比较了在默读和朗读两个状态下收集到的眼球运动信息的优缺点,并探索用语言信息增强眼球跟踪特征的想法。

我们首先介绍一些关于认知和语言变化的背景信息并讨论以前关于眼动跟踪和自然语言处理方法来检测认知衰退的工作。然后阐述我们的实验设置、特征提取和机器学习流程。我们分别以静默阅读和大声朗读两种方式展开实验,并讨论我们的结果的总体含义和解释。最后,我们承认当前工作的局限性,并提出对未来研究领域的建议。

2 背景

痴呆分为几个不同的种类,阿尔茨海默病(AD)是其中最常见的一种。AD通常呈现出与执行认知功能和记忆相关的症状,但也包括与语义处理有关的特定语言障碍。轻度认知障碍(MCI)在临床角度可以看作是痴呆的前一个阶段,一般发生在痴呆的前几年。具有MCI的人在几个认知领域中表现出症状,其中整体认知能力、情景记忆、感知速度和执行功能最明显受到影响。然而,患有MCI的病人和健康的控制组对照者之间的临床表现有很大的重合,这使诊断变得更加复杂和异质。

Taler和Phillips(2008)回顾了关于MCI中的语言障碍和阿尔茨海默病的文献,发现在AD中看到的语言障碍也存在于MCI中,尽管较少。主要的障碍是位于语言层面上(例如难于为一个照片取名或提出来自特定语义类别的单词),而没有关于句法处理问题的明确证据。

患有MCI的人通常在句子理解能力上受损,但也存在很大的个体差异。

以前的研究表明,对时间变量进行分析测量(如反应时间)将提高区分MCI和健康对照的能力,并且在调查MCI中的哪个因素将转换促使其为转化为AD提供帮助(Taler 与 Phillips,2008)。用机器学习来对语言数据进行分析从而检测轻度认知障碍已经展现出越来越多的好处。 Roark et al. (2011)测量了37名MCI患者和37名健康对照组重述叙述性故事的复杂性和信息含量。并且能够使用这些特征进行分类的AUC达到0.73,或通过对信息与临床检测评分进行组合得到的结果为0.86。T´oth et al. (2015) 利用声学特征(包括发音率,语速,发音长度,暂停持续时间,暂停次数和犹豫率),区分32位MCI患者和19位健康老年对照组,最佳准确率为80.4%。

其他研究考虑了通过自动分析语言和语言生产来区分痴呆患者与控制组的紧密相关的问题(Thomas et al.,2005; Pakhomov et al.,2010; Guinn and Habash,2012; Meila netal.,2014; Jarroldetal.,2014; Fraser et al.,2016; Rentoumi et al.,2014; Garrard et.,al,2014; Prud'hommeaux与 Roark,2015; Yancheva et al.,2015)。

相比之下,语言处理和理解的分析中将检测认知能力衰退为目标则更为少见,可能是因为自动量化更难。 语言处理的经典研究中关于痴呆已经考虑到了听力(例如,Rochon等人1994; Kempler等人1998; Welland等人2002)和阅读(例如,Patterson等人1994; Storandt等人1995)两个方面;这里我们专注于阅读作为输入模式。在阅读理解过程中,一种较好用于估计阅读过程中处理需求的方法是人眼跟踪。已经有大量的文献来描述阅读过程中的人眼追踪,所以我们不再做完整的概括,而只是介绍一些关键词汇和基本概念。

在阅读时,眼睛将不断的运动,对文本进行一系列的注视和扫视。当眼睛停留在一个字上的行为叫做注视。这段时间是对输入的信息进行处理,并且计划下一次的眼球运动。注视行为通常持续约200-300ms,出声阅读平均注视时间稍长于无声阅读(Rayner,1998)。在注视与注视之间,眼睛快速运动称为扫视。扫视可以包括正向浏览文本(前向扫视)或反向移动眼睛(一个回归幻想或简单回归)。在英文中扫视一般为6-8个单词(尽管这取决于语言;例如,Liversedge等(2016)发现芬兰语的扫视容量最大,而中文的扫视容量最少),约10%到15%的扫视是在回顾。无论阅读能力强弱的人都会存在回顾(regressions)现象,但阅读能力较强的人似乎有能力将眼睛准确地引导到困难或者相对迷惑的点,而较弱的读者则会进行更多的回归跟踪(Murray and Kennedy,1988)。

一个词是否被注视,被注视多长的时间都受到一些单词等级和上下文因素的影响。实词(或内容词)汇被注视的几率大概为85%,而虚词(或功能词)只有35%(Rayner,1998)。有一些证据表明,词类型的影响可能更细粒化,如Barrett等人的工作(2016)展示了基于眼动跟踪信息的词性标签的可能性。注视次数和持续时间也受单词频率(Raney and Rayner,1995)、语境中的单词可预测性(Kliegl等,2004)、句子中单词的位置(Rayner等,2000 )、该词的情感效价(Scott et al。,2012)和字长(Rayner,1998)的影响。

在分享几个相同的特征的同时,无声阅读和朗读被认为在某些方面可能有所不同。两种阅读之间的主要区别与大脑中语音和语义表示的访问有关。在默读时,对于正交信息的解码是否直接映射到语义意义上,或者字母是否被映射到音素,然后与语义意义相关联已经有很多的讨论。通过使用基于先前关于阅读的研究的计算方法,Harm和Seidenberg(2004)研究了两条提出的路线,并提出了一种组合模型,其中,语音路径和直接路径被同时激活并基于词频和拼音一致性等因素共享工作量。在朗读期间激活语义信息也是一段时间以来的讨论和研究。以前认为,在朗读期间,信息的语义层次不需要被激活,而是字母可以直接与音素匹配,然后被表达。然而,计算模型(Coltheart等,2001)和诸如fMRI数据(Graves等人,2010)已经表明,语义处理与朗读有关,但是程度不同。

以前的工作已经确定了与健康对照相关的认知障碍患者的眼睛运动之间的差异。Lueck等 (2000)报道,AD患者在阅读时眼睛运动不规律,注视时间延长,更多的回顾扫视。Fern'andez et al(2013)发现,AD患者的固定和回归数量增加,并且跳过了比健康对照更多的单词。 Pereira等 (2014)介绍了在MCI和AD中有关眼睛跟踪的文献综述,并且建议这样的技术可以预测从MCI到AD的转换,部分是由于眼睛运动对记忆、视觉和执行过程的早期变化的敏感性。

今年早些时候,Biondi等人在ArXiv发表的一篇文章中(2017)报告,通过眼睛运动追踪措施来区分AD患者和健康对照者的分类准确率为88.3%。他们记录了40名健康老年人和20名AD患者的眼睛运动,同时他们阅读了120个句子。这些句子的可预测性和熟悉度方面各不相同(例如,一些句子是众所周知的谚语)。每个句子被记录为单独的实验。在将10%的试验作为异常值排除后,其余90%的试验用于训练深度稀疏自动编码器,保留10%作为测试数据。 假设一些训练数据和测试数据来自同一参与者。

在本文中,我们首先旨在重现Biondi(2017)等人的实验的样貌,尽管有一些显著的差异。我们的研究是以瑞典语而不是西班牙语进行的,在每次试验中,参与者被要求阅读了整个段落,而不是单独的句子,这影响了我们的特征计算和分类器的选择。此外,我们提供两种不同的实验配置(默读vs朗读)的比较,并引入新的词级特征,将语言信息与眼球运动跟踪功能相关联。此外,从临床观点来看,也许最关键的区别在于我们的参与者处于认知衰退的较温和阶段,并没有被诊断为AD。因此,我们的目标是探讨这种有希望的方法是否可以用于检测认知障碍的最早阶段。

3 方法

3.1 参与者

参与者从哥德堡MCI研究招募,这是一项关于轻度认知障碍的大型纵向研究(Wallin等,2016)。哥德堡总体MCI研究由当地伦理委员会审查委员会批准(参考号:L09199,1999; T479-11-11);而目前描述的研究由当地道德委员会2016年第206-16号决定批准。

被纳入本研究的参与者必须符合一定的包容和排除标准:参与者必须是瑞典语的母语人士,必须能够阅读和了解有关该项目的信息,并能够得到同意。参与者不能有与目前的认知障碍无关的阅读障碍或其他阅读困难。我们还排除了患有深度抑郁症,持续滥用药物,无法用眼镜或隐性眼镜校正的眼睛视力不佳的患者和被诊断患有其他严重精神疾病,神经系统或脑相关疾病如帕金森病、肌萎缩性侧索硬化、脑肿瘤或中风的参与者。三组参与者参加了研究:轻度认知障碍患者(MCI),主观认知障碍患者(SCI)和健康对照组(HC)。参与者都经过一系列测试,从神经心理学考试到结构评估MRI、血液检查和腰椎穿刺。该本文分析和比较的组是MCI组和对照组。六名控制参与者和五名MCI参与者排除在目前的分析之外。

表1 轻度认知障碍(MCI)和健康对照组(HC)参与者,年龄,教育和简易精神状态检查分数(MMSE)以下面格式给出:平均值(标准偏差)。 MMSE是一种轻度状态的一般测试,最高分为30。

参与者资料见表1 各年龄组别与受教育程度无明显差异。对照确实具有显着更高的小型精神状态检查(MMSE)评分,平均(p

3.2 人眼追踪实验

眼睛跟踪实验在安静的实验室环境中进行。我们使用EyeLink 1000笔记本电脑安上装单目视觉跟踪器,并使用头枕进行头部稳定。头部稳定性提高了眼睛可跟踪性能。采样率设定为1000Hz。

参与者阅读了两个短文,在阅读后回答关于文本的五个问题。第一个文本是默读的,而第二个文本是大声朗读。这两个文本都来自国际阅读速度文本(IReST),它是17种不同语言的文本集合。他们在瑞典语中长达146个字,被开发为用作评估或阅读能力障碍的评估工具(Trauzettel-Klosinski等,2012)。我们选择提出完整的段落(而不是单独的句子)来模拟一个更自然的阅读任务,要求对从段落到结尾的信息进行整合和回忆。

在文本中我们定义出感兴趣区域(AOI),每个单词被标记为单独的AOI。然后相对于预定义的AOI计算眼睛运动,例如跳读和扫视。在次本分析中不考虑在AOI之外发生的注视。

使用9点校准程序对每个参与者校准眼睛跟踪器,并在试验1和试验2之间进行漂移校正。然而,数据的目视检查显示出向下漂移的趋势,特别是在第二次试验。这是在两个作者(K.C.F.和K.L.F.)所同意的程度上手动纠正的。

3.3 特征

作为我们的基准,我们考虑了Biondi(2017)等人提出的13个特征,并总结在表2中。在计算平均值和标准偏差之前,持续时间和幅度特征进行对数转换(Wotschack,2009)。每次试验的首次注视被丢弃,分析从第二次注视开始(Holmqvist等,2011)。如Biondi等人(2017年),我们将注视分为4个类别:首次阅读第一次注视、再次阅读第一次注视(Biondi等(2017)将这些术语称为“独特”的固定,但这个术语可能是模糊的,因此我们在这里避免了它。)、多重注视(multi—fixation)和重注视(refixations)。这些定义在表2中给出,但为了清楚起见,我们还提供了一个简单的真值表,总结了表3中四种类型的注视。

表2 人眼运动特征

然后,我们用这些文本中的单词,即它们的频率和单词类型的信息来增加这些基准特征。我们首先使用Sparv(https://spraakbanken.gu.se/eng/research/infrastructure/sparv)注释工具(Borin et al.,2016)对两个文本进行基本的句法和形态分析。具体来说,每个单词都被拼写,并用其词性(POS)标注。

表3 四种注视类型

我们根据Korp瑞典语言文件(https://spraakbanken.gu.se/eng/korp-info)的“现代”语言部分,根据每个词引理的频率值分配每百万字的百分比(每百万字),其中包含107亿个词标记写作时间(Borin et al.,2012)。这些频率值被POS消歧。然后,我们将频率值分为高频和低频,阈值为每百万字20次。通过观察两个文本中的单词的频率分布来手动选择该阈值。我们还将POS标签分为两类:实词和虚词。实词定义为名词、动词、形容词和副词;其他的一切词都被认为是一个虚词。

然后,我们在Biondi+字之后定义一个增强的特征集,其中考虑了这些单词级注释。具体来说,我们创建与每个基于固件的基准特征相对应的新功能。(原始特征集还包括扫视幅度,其计算不附加到任何一个特定字。)当原始特征涉及平均值和标准偏差时,我们计算在低:高频词和实虚词上计算的那些值的比率。举一个例子,对于“平均凝视持续时间”,我们计算了低频率词对高频词的平均凝视时间比,以及实词对虚词的凝视持续时间比。当原始特征是原始数据时,我们会计算一个比例。因此,对于“总注视时间”,我们计算发生在低频字上的总注视比例,以及在实词上发生的总注视比例。以这种方式,我们定义了22个新特征来增加原始的Biondi集。

显然,我们预计这些新特征可能会相互关联,因为虚词也是高频词。然而,在我们的方法论中,许多实词也被标记为高频,例如bil(英语:car)和potatis(英语:potato)

3.4 分类框架

我们考虑了在WEKA版本3.9.1(Hall et al。,2009)中实现的三种分类算法:朴素贝叶斯(NB)、支持向量机(SVM)和逻辑回归(LR)。考虑到我们小型化的数据集,我们放弃参数优化并使用默认参数,即对于LR,我们使用10-8的脊回归参数,对于SVM,我们使用第一度多项式内核和1.0的复杂度参数。对于特征选择,我们使用NB分类器的包装方法。 我们使用分析交叉验证来评估分类器,其中在每次迭代中,将一个数据点作为测试数据进行评估,其余剩余的数据用于特征选择和分类器训练。我们报告平均分类精度。对于我们的数据集,大多数类基准是52.6%。

4 结果

4.1 单一实验

我们首先单独考虑每个试验,因为我们预期,在默读时(试验1)与朗读(试验2)可能会有不同的眼球运动轨迹。第一次试验的每个分类器和每个特征集的结果在表4(a)中给出。使用增强的特征集在所有情况下都会损害分类的准确性,并且使用朴素贝叶斯分类器和Biondi特征集可以达到75.4%的最佳精度。

表4 单独试验的分类器精确度

当使用试验2(表4(b))的数据时,增强特征集在所有情况下再次导致较低的精度,66.7%的最佳结果由SVM和具有Biondi特征的贝叶斯分类器组实现的。在每种情况下,我们观察到与试验1相比,试验2的分类精度相同或更差。也就是说,当参与者朗读时,我们比默读时更少地提取诊断上有用的信息。这是有道理的,因为大声朗读是一个更为受限制的任务:读者必须以合理的速度不断向前推进,以避免故事叙事中的破坏。这限制了眼睛围绕文本自由移动的机会。此外,在朗读状态中,实验者一旦参加者到达文本的末尾就提出了理解问题,然而在默读模式中,参与者在自己准备好后才选择面对问题。

4.2 组合实验

我们现在检查是否可以组合来自两个试验的信息来提高分类准确性。我们考虑两种不同的方法来组合数据:(1)连接每个试验的特征向量,(2)计算两个试验的特征,就好像它们只是一次试验的两半。第一种方法的优点在于保留两个实验范例之间的任何显著的差异(例如,一个特征只有在默读过程中才呈现相关性,这个信号会很好的保留在数据中)。第二种方法(我们将称之为混合)的优点在于使用于计算的每个特征的数据量大大增加一倍,可能导致更准确的估计。

每个组合的结果将在表5中给出。在大多数情况下,单独使用Biondi功能集能够实现最佳精度。然而,最高的准确度是86.0%,这发生在使用具有Biondi +字特征集的朴素贝叶斯分类器的混合配置情况中。在各种情况下,通过数据的混合能够达到更高的精度。

4.3 分类总结

图1显示了每个试验和特征集的结果,在三个分类器上进行平均。一般来说,实验2中训练的分类器比在试验1中训练的分类器效果更差。与两次试验相结合的特征向量相比,单独使用试验2数据的准确度更高,但比单独使用试验1数据的精度略差。通过合并两次试验的数据,取得了最好的效果。使用Biondi功能集在前三种情况下比使用增强功能集更好,但是Biondi +字特征集导致合并配置的精度略高。

(a)连锁实验

(b)合并实验

表5 不同实验分类器精度

图1 每个实验的平均精度和特征设置以及分类器的较差平均

然而,并不是所有观察到的趋势都具有显着的意义。双向方差分析揭示了试验的显著效果(p = 5.010-7),但不具有分类精度的特征。Tukey事后检验确定合并试验的准确度明显优于试验1(p =6.810-4),试验2(p =5.010-7)和连锁试验(p =1.210-5)。然而,实验1和实验2之间没有显着差异,并且其与混合实验之间也没有显著的关系。

4.4 特征分析

为了确定哪些特征有助于区分组之间的差异,我们对所有特征进行了双尾异方差t检验two-tailed heteroscedastic t-test,并通过Bon-ferroni校正进行重复比较。对于这种分析,我们考虑合并试验的数据,因为它们具有最佳的准确性。发现纠正后组间仅有两个特征明显不同;这些将在表6中给出。与分类结果一致,没有频率或字型特征是显著的。在对照组中首次第一次阅读首次注视(first-pass first fixations )的总数明显较高,但MCI组中再次阅读首次注视(later-pass first fixations)次数较高。这表明控制组有更大的倾向从头到尾阅读文本,而MCI患者更倾向于跳过单词然后再返回回顾。图2中是这些不同阅读模式的一个例子。虽然这个数字仅显示了两位参与者的数据,但值得注意的是,默读实验(图2(a)和图2(c))和朗读实验(图2(b)和图2(d))有着比较明显的差异。

(a)控制组实验参与者,默读

(b)控制组实验参与者,朗读

(c)MCI实验参与者,默读

(d)MCI实验参与者,朗读

图2 认知健康参与者(上)和MCI参与者的眼睛运动示例(底部),他们从静音(左)和试听2的文本(右)读取文本(左)。图中的每个蓝框代表AOI(即文本中的一个单词); 圈子表示固定线条显示了眼睛的运动。 图(a)示出了相对简单的示例通过文本1的路径,而图(c)显示了一个包含更多的回溯和重读。

Ferna ndez et al. (2013年)发现,AD患者的总注视(fixations)次数,一次阅读注视(first-pass fixations )和二次阅读注视(second-pass fixations ) 增加。不过,他们指出,二次阅读注视(second-pass fixations )比一次阅读注视(first-pass fixations )更显著。我们的结果与第二次阅读注视(second-pass fixations)的显着增加是一致的,但不符合报道的第一次阅读注视的增加。这种差异的一个潜在原因可能在于“第一次阅读注视first pass fixations”的定义,在Ferna ndez等人(2013年)被赋予“初读”的含义中,其中包括一个词的所有向前注视,而第二次定义则被定义为“重读”;在这个框架下,我们可以将我们的再次阅读首次注视定义为第一次阅读注视。尽管如此,费尔南德斯研究和我们目前的结果都表明了在控制组数据中没有看到的跳过和反向追寻的模式。

5 局限

在这项研究中,像许多涉及临床数据的研究一样,我们的样本相当小。此外,这两个文本不是特别难以阅读,也没有具体包含MCI患者难以阅读的文字(例如,Patterson等人1994年归纳出的低频率非正规读音的词语)。此外,一些数据必须经过调整,或者在某些情况下,由于校准质量而完全被排除在外。

6 结论以及未来工作

在这项分析中,我们发现我们可以使用眼动跟踪信息来区分MCI患者与健康控制组,精度超过80%,最佳情况下精度高达86%。正如预期的那样,这比Biondi等人(2017)报道的区分对照组和AD患者的准确性要低一些。但是,这表明眼睛跟踪可能有望成为检测早期衰退阶段的一种方法。

我们还发现跟踪眼球运动时,参与者默读提供了比朗读更多的诊断信息。与单独使用任一试验相比,从两个试验条件合并数据导致分类准确性显着增加。在合并的数据集中,观察到特定组之间的初次通过第一遍阅读首次注视次数(first- pass first fixations )(对照组较高)和再次阅读首次注视(MCI组较高),建议在文本中有一些杂乱无章和非线性的路径。

尽管对注视的频率和语法类别进行标注确实带来最高的分类精度,但是这种提升还是不够有显著的统计学意义,并且没有一个增广特征展示出HC人群和MCI人群的区别。或许这些参与者正处在病理学下降的前期(并且这些文本在语言上太过简单)导致看不到显著的进展。又或者这些变量并没有捕获到最相关的语言信息。特别地,这些特征都非常的粗糙,只是对高频/低频词和虚词/实词进行是与否的区分。未来一个研究方向应该是去设计一个更为精密的把语言信息组合成眼球追踪模型,特别是要要考虑到上下文的呼应而不是在单一字面上进行操作。

另一个还未开发的信息来源是适度过程中的声音信号。把眼球的运动和声学信息结合起来,例如停顿、过滤、犹豫或者单词错误都可能提供一个更加完整的阅读时认知处理的过程。此外,包含在Biondi研究中的其他眼睛跟踪特征可能证明对早期认知障碍更敏感。

在未来的工作中,我们还计划探讨眼球运动与阅读理解之间的联系。本研究的每个参与者也回答了与他们阅读的段落有关的理解问题。分析不同眼睛运动特征与反应精确度之间的关系可能有助于我们更好地了解健康和认知受损读者使用的阅读策略。

最后,未来的工作将在实验分析中包括主观认知障碍(SCI)组。这类人群在神经功能测试中得分正常。因此,在临床症状出现之前,将其与健康对照区分开来的可靠方法可以帮助提供早期预警系统。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181015B0THTI00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券