动态 | 百度NLP团队登顶微软MARCO阅读理解测试

AI 科技评论消息,2 月 21 日,百度 NLP 团队提交的 V-Net 模型以 46.15 的 Rouge-L 得分位列微软的 MS MARCO 机器阅读理解测试第一名。目前人类评测 Rouge-L 得分为 47;BLEU-1 得分为 46。

据了解,百度提交的 V-NET 模型使用了一种新的多候选文档联合建模表示方法,通过注意力机制使不同文档产生的答案之间能够产生交换信息,互相印证,从而更好的预测答案。

AI 科技评论了解到,除了百度位列第一外,凭借 Microsoft AI and Research 提交的 S-Net、R-Net、ReasoNet,二、三、四名均由微软摘得。此外,新加坡管理大学与德国人工智能研究中心也紧随其后。

MS MARCO 全称为 Microsoft MAchine Reading Comprehension,即「微软机器阅读理解」,官网资料显示其正式发布于 NIPS 2016。这是一套由 10 万个问答和 20 万篇不重复的文档组成的数据集。

在机器阅读理解领域,想必大家更为熟悉的是斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset),AI 科技评论此前也有过不少相关报道。SQuAD 是行业内公认的机器阅读理解领域的顶级水平测试,它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。在阅读数据集内的文章后,机器需要回答若干与文章内容相关的问题,并通过与标准答案的比对,得到 EM(精确匹配)和 F1(模糊匹配)的结果。讯飞与哈工大联合实验室、微软、阿里巴巴、腾讯等国内外知名研究企业及机构都是 SQuAD 榜单上的常客。

与 SQuAD 不同,MARCO 数据集中的问题全都基于来自微软必应搜索(BING)引擎和微软小娜人工智能助手(Cortana)的已匿名处理的真实查询。此外,相关回答是由真人参考真实网页编写的,并对其准确性进行了验证。可以说,数据集的建立完全是根据用户在 BING 中输入的真实问题模拟搜索引擎中的真实应用场景,其研发团队也曾表示,「MS MARCO 是目前同类型中最有用的数据集,因为它建立在经过匿名处理的真实世界数据基础之上。」

目前搜索引擎只能针对用户的提问回答一些简单问题,可以回答复杂问题的系统仍然处于起步阶段,而普通人日常想获取一些琐碎复杂问题的答案,则需要在搜索引擎提供的结果中再次进行筛选、分析和整理。这些并无明确答案或存在多个可能答案的查询,是微软发布这一数据集希望攻克的阅读理解高堡。

在每一个问题中,MARCO 提供多篇来自搜索结果的网页文档,系统需要根据这些文档来回答给定的问题。就像人类在搜索引擎给定的结果中自行筛选信息一样,这些文档中是否有对应的答案、在哪一篇文章中,都需要系统自行判断,甚至还需要结合多篇文章做出提炼与总结,而这也对机器的阅读理解能力提出了更高的要求。

「此次在 MARCO 的测试中取得第一,只是百度机器阅读理解技术经历的一次小考,」百度自然语言处理首席科学家兼百度技术委员会主席吴华表示,「我们希望能够与领域内的其他同行者一起,推进机器阅读理解技术和应用的研究,使 AI 能够理解人类的语言、用自然语言与人类交流,让 AI 更『懂』人类。」

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

深度学习颠覆云计算,亚马逊、微软、谷歌势必与英伟达一决高下

【新智元导读】多位精英CIO、CTO和技术高管组成的福布斯杂志的常设部门Forbes Technology Council 撰文指出,随着市场对针对机器学习优化...

3439
来自专栏CDA数据分析师

Excel商业智能最常用的3大类分析方法,你会几种?

下文为电子表格大会主席李奇在论坛上的分享。 一般我都先讲Power BI,今天被前面老师讲了,我想了半天,该讲什么好呢,最后决定给大家先讲一个我自身的故事,跟大...

3035
来自专栏DT数据侠

搜集了3100款App的数据,我发现了安卓用户的“潜规则”

不久前,苹果刚发布了新一代iPhone,其高昂的售价以及缺乏创新的设计,让不少果粉望而却步,把目光逐渐转向这些年越做越好的谷歌的Android系统手机。数据侠Y...

482
来自专栏人工智能快报

Intel Fellow:人工智能与高性能计算将走向融合

作为Intel公司的Fellow,Alan Gara表示随着神经形态计算、量子计算等新型计算、存储、通信技术快速推动百亿亿次计算成为现实,人工智能与高性能计算将...

37411
来自专栏AI科技评论

动态 | 沈向洋WSDM 2018演讲:当搜索也变得智能&可对话

AI 科技评论消息,数据挖掘和机器学习应用顶级会议之一的 WSDM 2018(ACM International Conference on Web Searc...

3365
来自专栏大数据文摘

可视化告诉你,大数据究竟是什么?

893
来自专栏华章科技

送书 | 别泡枸杞,别晒步数!7招搞懂健康数据,有型有颜等TA来撩

导读:你的日常活动正在产生大量数据!但其中很多数据也正在被你浪费。你以为数据与健康的关系,就是在朋友圈里晒晒步数?其实,并不需要复杂的技术,这些数据就可以帮你完...

382
来自专栏新智元

谷歌TPU 3.0重磅发布;I/O大会上机器人真的能打Call!

1945
来自专栏AI研习社

为什么 GPU 会成为通用计算的宠儿?

编者按:文章来源自 Mapd,作者 Jonathan Symonds,AI 研习社编译。 █ 英伟达在 2016 年的强势崛起,GPGPU (GPU 通用计算)...

3495
来自专栏灯塔大数据

洞察|用户调查大数据:35.8%想关闭朋友圈

在微信朋友圈几乎涵盖整个交际圈的今天,发消息、回消息、赞评状态成为我们的日常。然而,不断被投票、代购、广告信息刷屏,也让一些人十分反感,甚至考虑关闭朋友圈。 ...

3214

扫码关注云+社区