直播 | CMRC2018 评测任务冠军队伍分享: 如何从数据、模型和训练角度提升阅读理解系统性能?

2018 年 10 月 19 日,第十七届中国计算语言学大会(CCL2018)在长沙召开,追一科技团队作为中文机器阅读理解(CMRC2018)评测任务的冠军队伍,在评测研讨会上分享了本次参赛系统的报告。

机器阅读理解(Machine Reading Comprehension)指的是,让机器像人一样去读懂一段文字,并回答相应问题。常见的机器阅读理解形式有完形填空式,选择题式和知名度最广的抽取式,从抽取文档篇数又可细分为多文档(如 MS MARCO)和单文档(SQuAD)。

CMRC 比赛与最流行的英文数据集 SQuAD 形式类似,文档来源于中文维基百科,问题由人工撰写,根据给定的一篇文档和一个问题,参赛者需要解决的是,如何建立并训练 model,使其能更好地理解 context 与 query,并找到相应答案。下图为实际比赛数据的一个示例。

数据

在数据方面,主要工作集中在数据的归一化和去噪音。CMRC 比赛训练集包含大约一万条数据,总体数据量偏少,这种情况下数据的标注一致性尤为重要。通过分析错误样例,参赛队员发现了标注的不一致问题,通过分析筛选最终对少量答案分布不一致的训练数据进行了清洗。

(1963 年)

范廷颂是什么时候被任为主教的?

VS

九广铁路小童储值票是何时停止使用的?

(1990 年 9 月停止使用)

上面的数据样例展示了这种标注不一致问题,同样为时间点的询问,但是不同标注有后缀区别,这种标注不一致问题会使模型的最终预测 EM 指标降低。

除了标注不一致的噪音,参赛队员还对文本进行了归一化,比如繁简转换,中英文标点转换等数据归一化操作。

模型

在模型方面,追一此次参赛采用了经典的端对端阅读理解系统,整体框架参考微软的模型结构 R-Net,示意图如下:

文本向量化表达

文本的向量化表达一直是深度学习系统效果的重中之重,本次参赛追一代表队使用了预训练的中文 ELMo 代替传统的 word2vec,单此一项,EM 提升了 1.8 个点。传统的词向量 word2vec 是上下文无关的,无法对一词多义的情况进行建模,比如常举例的「我想吃【苹果】」和「我的【苹果】手机摔坏了」。近期 AllenAI 提出了 ELMo,即 Embeddings from Language Models,这种词表征不再是固定的向量,而是以语言模型为基础获得的一个上下文相关的词表征。

英文 ELMo 是基于字符级别的编码,对中文并不适用。针对中文文本追一团队实验了两套方案,第一版是采用词级别进行输入,第二版是将词改进为笔划级别的编码,两者都通过双层 LSTM 变换来进行语言模型预训练。经过多次实验,效果最好的词级别与笔划级别的 ELMo 效果相差不大,最后采用了基于维基百科与新浪新闻组合语料训练的 512 维词向量 ELMo 模型作为下游任务的输入。

除 ELMo 外,模型还加入了描述问题类型的 one hot 特征,即按提问方式将问题归为 who, where, when 等八类,并转换为 one-hot 向量。POS 信息与词共现特征也作为额外的输入传入了模型。

编码层

采用多层双向 RNN 对文档和问题分别进行编码

交互层

Attention 机制是融合文档内容和问题信息的主要方法,是众多模型中比较通用的部分。在传统 attention 基础上,我们对问题输入添加了额外一个基于 gate 机制的过滤层,让模型去倾向注意核心词汇,忽略无关信息。改进的 attention 将 EM/F1 分别提升了 0.6/0.3。

答案抽取层

和众多参赛队类似,追一的参赛队员采用了 Pointer-network 来作为模型的输出层。PointerNetwork 通过预测答案的起始与终止位置,得到最终输出。

训练

由模型压缩思想衍生出的自我蒸馏 (self-distill) 训练方法在此次比赛中起到了很好的效果,其思想来源于论文《Born-Again Neural Networks》。蒸馏通常用在模型压缩方面,即采用预训练好的复杂模型(teacher model)输出作为监督信号去训练另一个简单模型(student model),从而将 teacher 学习到的知识迁移到 student。自我蒸馏就是不改变模型大小,循环进行 teacher-student 的训练,直到效果不再改进。CMRC 比赛中,teacher model 是已经训练好的一版模型,student 和 teacher 模型相同,仅重新初始化。训练 student 时,模型要同时学习真实 label 和 teacher 的输出。self-distill 效果显著,最终模型比初始 teacher 的 EM/F1 分别可以增长 0.88/0.94。

经过数据清洗,模型优化,多次训练,最终的系统在正式测试集上,EM 和 F1 分别达到了 74.178 和 88.145,仅靠单模型(single),在所有队伍中排名第一。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-11-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

论文 | Twitter在超分辨率技术上取得新进展,能还原打码图片

AI科技评论按:受到万众瞩目的ICLR已经于今天在法国土伦召开。该大会由Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2013年发起...

3824
来自专栏华章科技

当我们说数据挖掘的时候我们在说什么

现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。

912
来自专栏AI科技评论

学界 | 清华大学计算机系朱军教授:机器学习里的贝叶斯基本理论、模型和算法

AI科技评论按: 3月3日,中国人工智能学会AIDL第二期【人工智能前沿讲习班】在北京中科院自动化所举行,本期讲习班的主题为【机器学习前沿】。周志华教授担任学术...

55814
来自专栏腾讯技术工程官方号的专栏

CVPR 2018 | 腾讯AI Lab入选21篇论文详解

腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进行详解,欢迎交流与讨论。

1.9K18
来自专栏开心的学习之路

贝叶斯决策理论(理论部分)

Measurement Space ---> Feature Space ---> Decision Space

2034
来自专栏目标检测和深度学习

2017年历史文章汇总|深度学习

1132
来自专栏SimpleAI

【DL笔记2】神经网络编程原则&Logistic Regression的算法解析

从【DL笔记1】到【DL笔记N】,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总结而来。从基本的概念、...

994
来自专栏AI科技评论

学界丨Facebook Yann LeCun最新演讲: AI 研究的下一站是无监督学习(附完整视频加37页PPT)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一。 近日,LeCun在卡内基梅隆大...

3676
来自专栏新智元

【Hinton碰撞LeCun】CNN有两大缺陷,要用capsule做下一代CNN

【新智元导读】 在本次演讲中, Hinton讨论了用“capsule”作为下一代CNN的理由。 他解释了“标准”的卷积神经网络有什么问题?结构的层次太少,只有神...

3124
来自专栏企鹅号快讯

人工智能很火 可你知道背后应用了哪些算法吗

对于人工智能来说,重中之重无疑是算法,对于企业来说,尤其是人工智能和机器学习领域的企业,究竟掌握多少算法以及数据基础,是推动和影响未来企业业务向前推进的重要参考...

2197

扫码关注云+社区

领取腾讯云代金券