动态 | 微软刷新CoQA对话问答挑战赛纪录,模型性能达到人类同等水平

AI 科技评论按,来自微软亚洲研究院(MSRA)自然语言处理(NLP)小组和微软 Redmond 语言对话研究小组的一组研究人员目前在斯坦福大学组织的对话问答(COQA)挑战中处于领先位置。在这一挑战中,衡量机器的方法是其理解文本段落和回答会话中出现的一系列相互关联的问题的能力大小。微软目前是唯一一个在其模型性能上达到人类同等水平的团队。

CoQA 是一个大型的会话问答数据集,由来自不同领域的一组文章上的会话问题组成。MSRA NLP 团队使用斯坦福问答数据集(SQuAD)在单轮问答上达到了人类同等水平,这是一个新的里程碑。与 SQuAD 相比,CoQA 中的问题更具对话性,为了确保答案看起来自然,它可以是自由格式的文本。 CoQA 中的问题非常简短,可以模仿人类的对话。此外,第一个问题之后的每个问题都是基于前面的问题的,这使得机器更难解析简短的问题。例如,假设你问一个系统,「谁是微软的创始人?」,当你继续问第二个问题「他什么时候出生的?」时,你需要理解你仍然在谈论和之前相同的话题。

来自 CoQA 数据集的对话。CoQA 论文:https://arxiv.org/abs/1808.07042

为了更好地测试现有模型的泛化能力,CoQA 从收集了七个不同领域的数据:儿童故事、文学、初高中英语考试、新闻、维基百科、Reddit 和科学。前五个用于训练、开发和测试集,后两个仅用于测试集。CoQA 使用 F1 度量来评估性能。F1 度量衡量的是预测内容和真实答案答案之间的平均重叠词。域内 F1 根据训练集所在域的测试数据进行评分;域外 F1 根据不同域的测试数据进行评分。总的 F1 度量值是整个测试集的最终得分。

微软研究人员所采用的方法使用了一种特殊的策略,即利用从几个相关任务中获得的信息来改进目标机器阅读理解(MRC)任务。在多阶段、多任务、微调方法中,研究人员首先在多任务设置下从相关任务中学习 MRC 相关背景信息,然后对目标任务的模型进行微调。语言建模在这两个阶段都作为辅助任务使用,以帮助减少会话问答模型的过度拟合。实验证明了该方法的有效性,其在 CoQA 挑战中的强大性能也证明了这一点。

多级多任务微调模型概述

根据 CoQA 排行榜,微软研究人员于 2019 年 3 月 29 日提交的系统得分达到 89.9/88.0/89.4,分别作为其领域内、领域外和整体 F1 分数。而在面对同一组会话问题和答案,人的表现得分为 89.4/87.4/88.8。

这一成就标志着搜索引擎(如 Bing)和智能助手(如 Cortana)在与人互动和以更自然的方式提供信息方面取得了重大进展,就像人们相互交流一样。然而,一般的机器阅读理解和问答仍然是自然语言处理中未解决的问题。为了进一步扩大机器理解和生成自然语言的能力边界,团队将继续致力于生成更强大的预训练模型。

via www.microsoft.com/en-us/research/blog/

本文分享自微信公众号 - AI研习社(okweiwu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

中国AI军团争霸机器阅读理解大赛,搜狗创下全球新纪录

这不,2018年迭代上线的CoQA机器阅读理解大赛,一番你争我赶之后,最终还是形成了中国AI力量争霸之势。

8630
来自专栏量子位

中国军团称霸阅读理解竞赛RACE:微信AI称王,高中生单枪匹马力压腾讯康奈尔联队

此次比赛所用数据集RACE,全称:Large-scale ReAding Comprehension Dataset From Examination,是一个从...

10730
来自专栏量子位

让聊天机器人完美回复 | 基于PaddlePaddle的语义匹配模型DAM

语义匹配是NLP的一项重要应用。无论是问答系统、对话系统还是智能客服,都可以认为是问题和回复之间的语义匹配问题。这些NLP的应用,通常以聊天机器人的形式呈现在人...

10130
来自专栏量子位

IBM的AI医疗走进死胡同:想用NLP解决医学问题,连Bengio也不看好

从2011年开始,蓝色巨人IBM在AI医疗上押上了重注,甚至为其AI部门建立了一个华丽的总部。这一切都是为了在AI浪潮中保持自己的领先定位。

11030
来自专栏量子位

AI招聘公司Moka再融1.8亿,90后学霸创始团队靠变革HR年入3000万

比如,对于人类最基础的企业行为——招聘,AI也被创业公司Moka结合具体场景落地。

15660
来自专栏量子位

斯坦福2019年深度学习NLP课程完结,视频(有字幕)已放出 | 附PPT、参考资料、优秀项目

大部分课程视频(有字幕)已经上线,所有的课程PPT都已经放出,课程中的优秀项目也已经公开。

27640
来自专栏量子位

名校CS硕士申机器学习PhD三波“全拒得”,这么多人和他同病相怜?

昨天,网友ubiquitous7733在Reddit论坛吐槽,自己想申请NLP和机器系学习方向的博士生,尝试过纽约大学、哥伦比亚大学, 斯坦福、MIT, CMU...

16310
来自专栏量子位

微信AI拿下NLP竞赛全球冠军,“二孩”智言团队的实习生立功了

近日,在第七届对话系统技术挑战赛(DSTC7)上,首次亮相的微信智言团队一路过关斩将,最终拿下冠军。

24220
来自专栏量子位

说出你的需求,我们AI给你写代码 | MIT新研究

他们提出了一种灵活组合模式识别和推理的方法,在无监督学习的情况下, 来解决AI自动编程遇到的问题。

9820
来自专栏量子位

最强读心术!脑波直接转语音,你的秘密已无处藏身 | Nature子刊

有,用万能的AI啊。最近,Nature子刊Scientific Reports上报道了一项新技术进展:监测一下脑电波,AI就能还原你听到的声音。

26820

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励