【学术】打开黑匣子—MIT解构神经网络工作原理

神经网络是通过分析大量的训练数据学会执行计算任务,这是人工智能近代取得的最令人印象深刻的进步,包括语音识别和自动翻译系统。

然而在训练期间,神经网络不断地调整其内部设置,甚至连创建者也无法解释其原理。于是,最近在计算机科学领域的许多工作都聚焦于研发一种技术,确定神经网络如何发挥作用。

在最近的几篇论文中,麻省理工学院计算机科学和人工智能实验室(CSAIL)和卡塔尔计算研究所(QCRI,Qatar Computing Research Institute)的研究人员使用了最近研发的解释技术,该技术已经用于分析机器翻译和语音识别中训练完成的神经网络。

他们为一些常见的网络运作方式的直觉找到了实证支撑。例如,在转到更高层次的任务(如转录或语义解释)之前,这些系统似乎专注于较低级别的任务(如声音识别或词性识别)。

研究人员也发现了翻译网络所考虑的数据类型有一个惊人的遗漏,并且表明纠正这种漏洞会改善了网络的性能。这种改进是虽然并不明显,但它指出分析神经网络可能有助于提高人工智能系统精度。

“在机器翻译方面,从历史上看,存在着不同层次的金字塔。”一位CSAIL高级研究科学家,Jim Glass说,他与Yonatan Belinkov(麻省理工学院电子工程和计算机科学专业的研究生)一起参与这个项目。“在最底层有单词,表面形式(surface form),金字塔的顶部是某种形式的语言表达,你可以在不通的层次做语法和语义。这个概念非常抽象,简而言之就是,你在金字塔上走得越高,翻译成新的语言越容易,然后你再下到底层进行下次翻译。因此,Yonatan所做的一部分就是试图找出这个概念的哪些方面被编码在网络中。”

有关机器翻译的工作近期在国际自然语言处理联合会议上发表了两篇论文。Belinkov是第一作者,Glass是资深作者。另一篇,Belinkov是一个联合作者。卡塔尔计算研究所的研究人员,包括LluísMàrquez,Hassan Sajjad,Nadir Durrani,Fahim Dalvi和Stephan Vogel也参与了这两个研究。Belinkov和Glass是分析语音识别系统的唯一作者,Belinkov上周在神经信息处理研讨会上提出了这个系统。

原理

神经网络的名称来源是因为它们很接近人脑的结构。通常情况下,它们被排列成层,每层都由许多简单的处理单元(节点)组成,每个节点都连接到上下层的几个节点。数据被馈送到最低层,其节点处理它并将其传递到下一层。层之间的连接具有不同的“权重”,这决定了任意一个节点的输出到下一个下一个节点的计算量。

在训练期间,节点之间的权重不断调整。在网络训练完成后,研发人员可以确定所有连接的权重,但是由于节点和连接的数量太过庞大,推导出这些权重编码的算法几乎是不可能的。

研究人员采用的技术包含提取训练完成的网络,并利用其每个层的输出响应单个训练实例,以训练另一个神经网络执行特定的任务。这使他们能够确定每一层优化的任务。

在语音识别网络中,Belinkov和Glass使用了单层的输出来训练一个系统来识别“phones”,不同的语音单元(尤其是口语)。例如,“tea”,“tree”和“but”等词语中的“t”可能被分类为单独的phones,但是语音识别系统必须使用字母“t”来转录所有这些。事实上,Belinkov和Glass发现,较低级别的网络在识别phones方面比在较高级别上更好,然而,这种区别可能不那么重要。

同样的,在去年夏天在计算语言学协会年会上提出的一篇论文中,Glass,Belinkov和QCRI的同事指出,机器翻译网络的较低级别特别擅长识别词性和词形特征,如时态,数字和动词的词形变化等。

意义

但在新的论文中表明,更高层次的网络在语义标记方面更好。正如Belinkov所解释的那样,一个词性标注者会认识到“herself”是一个代词,但是这个代词的含义在句子“she bought the book herself”和“she herself bought the book”是不同的。而语义标注者会为“herself”的这两个实例分配不同的标签,就像机器翻译系统可能会为给定的目标语言中找到不同的翻译一样。

性能最好的机器翻译网络使用编解码模型,所以MIT和QCRI研究人员的网络也使用它。在这样的系统中,源语言的输入通过网络的几个层(被称为编码器)来产生向量,该向量是以某种方式表示输入的语义内容的一串数字。该向量通过网络的多个层解码器产生目标语言的翻译。

尽管编码器和解码器是一起训练的,但它们可以被认为是独立的网络。研究人员发现,编码器的低层能很好的区分形态,但是解码器的高层不能。因此,Belinkov和QCRI的研究人员重新训练网络,不仅要根据翻译的准确性对其表现进行评分,还要对目标语言的形态进行分析来判定。实质上,这迫使解码器更好的区分形态。

利用这种技术,他们重新训练网络,将英语翻译成德语,发现其准确度提高了3%。虽然看起来改变不大,这是这表明,探索神经网络的本质可能不仅仅是一项学术活动。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【深度解密】量子机器学习的研究进展

作者是来自英国布里斯托大学的量子工程中心研究员,布里斯托大学在量子力学和量子计算方面有很强的建树,诺贝尔物理学奖获得者、量子力学的奠基者之一保罗·狄拉克,中国科...

41510
来自专栏崔庆才的专栏

干货 | 给妹纸的深度学习教学——从这里出发

或许你第一个想弄明白的问题是人工智能(AI),机器学习(ML),深度学习(DL)三者的区别和联系,下图清晰明了地告诉你。 ? 1. 什么是机器学习 从小学开始...

40711
来自专栏新智元

人类将可能操控AI?神经网络语言处理工作原理被破解

作者:刘光明 【新智元导读】近期,来自麻省理工学院计算机科学人工智能实验室(CSAIL)和卡塔尔计算研究所的研究人员已经通过新的解释技术,来分析神经网络做机器...

3214
来自专栏向治洪

[置顶] 机器学习简介及常用算法

概念 什么是机器学习? 机器学习是英文名称Machine Learning(简称ML)的直译。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多...

1778
来自专栏AI研习社

“回归分析”真的算是“机器学习”吗?

是什么将“统计”从“机器学习”中分离出来的? 这是一个被讨论过无数次的问题。关于这个问题的文章有很多,人们对其好坏莫衷一是。但是我发现,在“统计”和“机器学习”...

3354
来自专栏新智元

【LeCun台大演讲】AI最大缺陷是缺乏常识,无监督学习突破困境

【新智元导读】近日,在台湾大学,卷积神经网络之父、FacebookAI 研究院院长 Yann LeCun 以「Deep Learning and the Pat...

3054
来自专栏目标检测和深度学习

深度学习简述

作为人工智能领域里最热门的概念,深度学习会在未来对我们的生活产生显著的影响,或许现在已经是了,从 AlphaGo 到 iPhone X 上的人脸识别(FaceI...

2736
来自专栏机器之心

GMIS 2017 | 腾讯AI Lab副主任俞栋:语音识别研究的四大前沿方向

机器之心整理 演讲者:俞栋 5 月 27-28 日,机器之心在北京顺利主办了第一届全球机器智能峰会(GMIS 2017),来自美国、加拿大、欧洲,香港及国内的众...

3308
来自专栏机器之心

SIGIR 2018 | 通过深度模型加深和拓宽聊天话题,让你与机器多聊两句

选自sigirdawnet 作者:Wenjie Wang等 机器之心编译 参与:Panda 目前大多数基于生成的对话系统都会有很多回答让人觉得呆板无趣,无法进行...

3035
来自专栏人工智能快报

麻省理工科研人员开发出新型人脸识别算法

美国麻省理工学院网站发布消息称,该校科研人员开发出了一种新的人脸识别算法,这是一种新的基于人脑面部识别机制的计算模型,似乎能够捕获被现有模型忽略的一些人类神经学...

3488

扫描关注云+社区