学界 | 大脑信号和翻译?利用脑信号实现英语、葡语和普通话三语互解

选自Science Direct

机器之心编译

参与:路雪、蒋思源

利用大脑信号进行翻译?本文作者从 2014 年开始研究「用大脑信号进行翻译」(brain-based translation),并发过一篇关于英语葡语利用脑信号进行互译的论文,研究发现用被试者(英语)被英语概念激活的大脑信号去训练算法时,算法可以预测另一个被试者(葡萄牙语)大脑中被葡萄牙语激活的概念,通过大脑信号的类似,实现葡萄牙语和英语的互解。近日,她发表了新的研究成果,对三种语言(英语、葡语、普通话)互解进行研究,发现两种不同语言训练一个算法去预测第三种语言比仅使用一种语言去训练算法更好。机器之心选取了该论文的部分内容进行编译,更多细节请查看原论文。

论文链接:http://www.sciencedirect.com/science/article/pii/S0093934X1730158X

摘要

该研究将两种语言间的语义解码(基于概念的 fMRI 特征)扩展至三种语言(英语、葡语和普通话)的句子解码。分类器在一种语言词和激活模式之间的映射上,或两种语言之间的映射上(使用等量训练数据)进行训练,然后测试该分类器对第三种语言语义内容的解码能力。在两种语言上训练的分类器比在一种语言上训练的分类器在三个语言对上的准确度更高。该优势在抽象概念域,如社会交往和心理活动上更为突出。句间神经相似性的表征相似性分析(Representational Similarity Analyses,RSA)带来三种不同语言中句子的相似聚类,说明语言之间存在共享的神经概念空间。这些发现可以识别三种语言中较为普遍的语义域和语言或文化特有的语义域。

要点

  • 三种语言中的句子可以使用神经激活模式进行分类。
  • 在两种语言上训练的模型比在一种语言上训练的模型更有优势。
  • 双语优势在抽象的概念域更为突出。
  • RSA 分析使三种语言间出现相似的句子聚类。
  • 研究结果揭示了神经概念编码的共通性和文化特性。

1 引言

近期的眼球追踪研究发现三种书写风格迥异的语言(中文、英语和芬兰语)的使用者表现出大量相似的阅读行为(Liversedge et al., 2016),这与文本阅读中概念表征的共通性相一致,尽管语言之间存在字形和语言的变异。

多个 fMRI 跨语言解码研究也支持这种共通性,研究发现不同语言中类似的概念(指翻译中对等的词)给语言使用者带来相似的神经激活模式。因此,我们可以训练机器学习算法将概念和一种语言(训练语言)中词/句唤起的神经激活模式联系起来,然后识别另一种语言(测试语言)中翻译对等词汇的神经激活模式。

本研究调查了在两种语言的数据上训练的分类器是否比仅使用一种语言的等量数据训练的分类器更准确地解码第三种语言。如果答案是肯定的,则确定从双语训练中受益最多的语义域也将成为可能。

本研究中,分类器在句子和激活模式之间的映射上进行训练,然后在另外一组数据上进行测试。我们比较了三种情况:分类器在两种语言的映射上训练,在第三种语言上测试;分类器在一种语言的映射上训练,在另一种语言上测试;分类器在一种语言的映射上训练,在同一种语言上测试。三种情况使用的训练数据量相同。详见表 1。

表 1. 二对一映射、一对一映射和语言内映射着三种情况中的语言结合。

1.1 假设

我们测试了四种假设。第一,在训练数据等量的情况下,在两种语言(如英语和葡语)上训练的分类器比在一种训练语言(英语或葡语)上训练的分类器更好地泛化到第三种语言(如普通话)中(更准确地划分句子)。在其他两种语言上训练的分类器准确率比在一种其他语言上训练的分类器准确率与语言内准确率的相似度更高。

第二,我们假设此类双语优势(在两种语言上训练比在一种语言上训练的准确率高)在语言或文化特有的概念域中更加明显,相比于语言或文化中较为普遍的概念域而言,因为后者不会从第二种训练语言中得到额外收益。例如,表示社会互动的词如 marriage 的双语优势可能要大于 apple。第三,元语言神经共通性应该不受语言表层结构之间距离的影响。例如,英语和普通话之间的元语言概念表征距离不一定大于英语和葡语,尽管英语和葡语同属于印欧语系。第四,表征相似性分析(RSA)计算出的语言内句内神经相似性模式应该展示出三种语言的共通性,这表明不同语言中句子间的语义空间和语义关系是相似的。

2. 材料和方法

图 1. 示例句子在葡语、英语和普通话中的呈现范式(presentation paradigm)。每个词组的呈现时间根据之前文本阅读眼动研究构建的回归模型来确定。葡语和英语中的呈现时间是每个内容词词汇数 × 300 ms + 字母数 × 16 ms,普通话的呈现时间是每个内容词的字数 × 300 ms + 笔画数 × 8 ms。

图 2.(A)特定语言在参与者中普遍出现的稳定激活集群。英语集群绿色(左),普通话集群蓝色(中),葡语集群粉色(右);(B)连接特定语言集群而得到的语言普遍的集群;(C)最小的长方形(红框)包含每个语言的普遍集群。

3 结果

表 2. 二对二、一对一和语言内映射的分类准确率。(括号中是测试参与者中的标准偏差)。

图 3. RSA 矩阵之间的成对相关矩阵中出现的两个一般跨语言集群。左:英语和葡语 RSA 矩阵间的相关矩阵;中:普通话和葡语 RSA 矩阵间的相关矩阵;右:普通话和英语 RSA 矩阵间的相关矩阵。左上方子矩阵构成在环境场景中描写事件的句子集群;右下方子矩阵构成描写社会互动的句子集群。

4. 讨论

在两种语言上训练的分类器的优势源于仅对第二种训练语言和测试语言普遍的神经映射,这可以扩大训练域,如图 4 黑色区域所示。研究结果表明存在语言特有的重叠映射,它们因语言而异。

图 4. 三种语言中概念-神经映射域图示。二对一映射比一对一映射多提供的信息如黑色区域所示。

4.5 结论

人类大脑为所有语言提供了一个表示句子的神经平台,导致语言间此类表征中存在大量共通性。同时,每种语言和文化只带来意义上的细微差别,因此概念的神经表征表面上看来是很相似的。查看多种语言中概念和神经表征之间的映射有可能揭示这一语言特殊性(language specificity)的存在,以及它们可能出现的语义域。识别语言共性和特殊性对定义大脑和语言之间全部映射是必要的。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

连LeCun都推荐的Fashion-MNIST数据集,是这位华人博士的成果

允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 上周六,量子位在报道中提到德国时尚圈的科学家,推出一个名叫Fashion-MNIST的数据集。这个数...

4275
来自专栏AI科技评论

面对未知分类的图像,我要如何拯救我的分类器

AI 科技评论按:当训练好的图像分类器遇到了训练数据里不存在的类别的图像时,显然它会给出离谱的预测。那么我们应该如何改进分类器、如何克服这个问题呢?

2294
来自专栏深度学习那些事儿

一篇文章解决机器学习,深度学习入门疑惑

研究生有不少日子,和之前的几个学长以及几个学弟偶尔也聊聊天。大部分聊的话题无关乎这几年大火的机器学习深度学习神经网络,而这篇文章的目的,则是从学生的角度(不管是...

6687
来自专栏灯塔大数据

每周学点大数据 | No.58协同过滤模型(上)

NO.58 协同过滤模型(上) Mr. 王:为了能够有效地利用其他用户的评价来进行更有效的推荐,人们提出了协同过滤的推荐模型。 小可:那什么是协同过滤模型呢?它...

3209
来自专栏PPV课数据科学社区

写给大家看的机器学习书(第三篇)

题记 —— 我们为何出发 在开始这个系列文章的第三篇之前,为了对初次见面的朋友更友好,将这个题记放在前面。 哪怕所有的初心最终都被遗忘,至少现在的我们足够认真。...

3056
来自专栏机器之心

论文结果难复现?本文教你完美实现深度强化学习算法DQN

3327
来自专栏语言、知识与人工智能

从用户行为去理解内容-item2vec及其应用

从内容属性去理解用户行为,预测用户行为,那么也可以通过理解用户行为去理解内容,预测内容属性。

3.6K10
来自专栏技术翻译

揭开人工智能、机器学习和深度学习的神秘面纱

深入学习,机器学习,人工智能——所有代表分析的未来的流行词。在这篇文章中,我们将通过一些现实世界的例子来解释什么是机器学习和深度学习。在以后的文章中,我们将探讨...

980
来自专栏机器之心

学界 | 深度神经网络比拼人类视觉:信号弱时的物体识别差异

选自arXiv 机器之心编译 参与:Smith 近日,来自德国 Tubingen大学和Potsdam大学的研究人员们共同发布了一项研究成果——深度神经网络和人类...

2875
来自专栏新智元

9月机器学习文章Top10:星际2、Dota2皆入选,ML教程居榜首

【新智元导读】Mybridge AI(www.mybridge.co)基于文章的内容质量和热议程度对 9 月份和机器学习相关的论文进行了排名,从近 1400 篇...

3778

扫码关注云+社区

领取腾讯云代金券