专栏首页量子位Facebook开源问答系统DrQA:基于单一信源回答开放域提问

Facebook开源问答系统DrQA:基于单一信源回答开放域提问

问耕 编译整理 量子位 出品 | 公众号 QbitAI

今天一大早,Yann LeCun就转发了一条消息:Facebook开源了DrQA的代码。

DrQA是一个开放域问答系统。

关于DrQA,Facebook还发表了一篇论文《Reading Wikipedia to Answer Open-Domain Questions(阅读维基百科来回答开放域问题)》。这篇论文也入选了下周即将在温哥华召开的ACL 2017大会。

论文的作者为来自斯坦福的Danqi Chen(陈丹琦,之前毕业于清华姚班),以及来自Facebook人工智能实验室(FAIR)的Adam Fisch,Jason Weston,Antoine Bordes。

Adam Fisch介绍说,DrQA的主要任务是大规模机器阅读(MRS)。在这种情况下,DrQA会在一个非常庞大的非结构化文档语料库中寻找问题的答案。因此,这个系统最大的挑战就是文档检索与文本的机器理解如何更好的结合。

论文摘要

DrQA系统架构

这篇论文提出使用维基百科作为唯一的知识来源,以解决开放域问答。任何事实性提问的答案,都是来自维基百科中的内容。

我们的方法结合了基于二元语法哈希(bigram hashing)和TF-IDF匹配的搜索组件,以及一个训练用来在维基百科段落中寻找答案的RNN模型。

我们在多个现有问答数据库上的实验表明:1、上述两个模块与现有方案相比优势很大 2、使用远监督的多任务学习,可以让上述组合更高效的完成任务。

为了回答任何问题,DrQA必须首先检索超过500万个条目中的相关文章,然后仔细扫描以确定答案。我们把这个成为大规模机器阅读(MRS)。

我们的工作将维基百科视为文章的集合,而不依赖于其内部图形结构。因此,这个通用方法可以切换到其他文件、书籍或是日报等领域。

像IBM DeepQA这样的大规模问答系统,依赖于多个来源给出答案:除了维基百科,DeepQA还是用了知识库、词典、新闻、书籍等。因此这样的系统严重依赖信息冗余来获得正确答案。

而只有单一知识来源,迫使模型在搜索答案时必须非常精确,因为相关证据可能只会出现一次。因此,这对机器阅读能力是一个挑战。

获取论文,可以在量子位微信公众号(QbitAI)对话界面回复:“drqa”四个字母。

开源代码

Facebook已经把DrQA问答系统的PyTorch实现公布在GitHub上。地址在此:

https://github.com/facebookresearch/DrQA

在这个页面上,Facebook还展示了一下DrQA的问答界面,我们挑选几个给大家看看。首先是这个问题:“生命、宇宙和一切的答案是什么?”

安装DrQA需要Python 3.5或以上,当然也需要安装PyTorch。更多细节都在requirements.txt中。

另外,Facebook还提供了预训练的模型,以及维基百科问答数据。这部分内容大小为7.5GB,解压之后约为25GB大小。

本文分享自微信公众号 - 量子位(QbitAI),作者:专注报道AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 微软Excel竟能实现CV算法:亚马逊工程师妙用,人脸检测、字符识别都不在话下

    这项好玩的技巧,是由亚马逊首席工程师 Alok Govil 和 Venkataraman Subramanian共同完成。

    量子位
  • 外星人到底在哪?普利茅斯大学新建AI寻系外生命系统

    像1960年物理学家弗里曼·戴森提出的寻找戴森球,以及天文学家尝试从恒星的光变曲线中寻找不可解释的特殊天体等方法,都没有啥定性的结果。

    量子位
  • 我的名片能运行Linux和Python,还能玩2048小游戏,成本只要20元

    猜猜它是什么?印着姓名、职位和邮箱,看起来是个名片。可是右下角有芯片,看起来又像是个PCB电路板。

    量子位
  • 监督学习方法总结

    感知机、k近邻法、朴素贝叶斯法、决策树 是简单的分类方法,具有模型直观、方法简单、实现容易等特点

    Michael阿明
  • 使用信息架构视图访问数据库元数据

    元数据简介 元数据 (metadata) 最常见的定义为"有关数据的结构数据",或者再简单一点就是"关于数据的信息",日常生活中的图例、图书馆目录卡和名片等都...

    张善友
  • Linux/Windows等系统无线网卡无法使用时利用手机共享网络救急

    例如Ubuntu和Windows系统初装后,有时无线驱动会有一些问题,现在wifi普及,网线上网又不是十分方便,需要快速使用网络,通常只要有一个android/...

    zhangrelay
  • CVPR 2020 论文大盘点-遥感与航拍影像处理识别篇

    本文总结CVPR 2020 中所有遥感与航拍(Remote Sensing、Aerial Image)影像处理识别相关论文,总计 18 篇。

    CV君
  • Ad-hoc类型同步识别

    尽管之前的我们提出的动态数据竞争验证和检测方法能够比较精确地找到数据竞争,但是该方法还是会存在一部分误检,误检主要就是由于ad-hoc类型的同步引起的,下图展示...

    chain
  • python 中的 组合

    组合是一个面向对象的设计概念,模型a是有关系的。在composition中,一个称为composite的类包含另一个称为component的类的对象。换句话说,...

    公众号---志学Python
  • 继1小时训练ImageNet之后,大批量训练扩展到了3万2千个样本

    机器之心

扫码关注云+社区

领取腾讯云代金券