Facebook开源问答系统DrQA:基于单一信源回答开放域提问

问耕 编译整理 量子位 出品 | 公众号 QbitAI

今天一大早,Yann LeCun就转发了一条消息:Facebook开源了DrQA的代码。

DrQA是一个开放域问答系统。

关于DrQA,Facebook还发表了一篇论文《Reading Wikipedia to Answer Open-Domain Questions(阅读维基百科来回答开放域问题)》。这篇论文也入选了下周即将在温哥华召开的ACL 2017大会。

论文的作者为来自斯坦福的Danqi Chen(陈丹琦,之前毕业于清华姚班),以及来自Facebook人工智能实验室(FAIR)的Adam Fisch,Jason Weston,Antoine Bordes。

Adam Fisch介绍说,DrQA的主要任务是大规模机器阅读(MRS)。在这种情况下,DrQA会在一个非常庞大的非结构化文档语料库中寻找问题的答案。因此,这个系统最大的挑战就是文档检索与文本的机器理解如何更好的结合。

论文摘要

DrQA系统架构

这篇论文提出使用维基百科作为唯一的知识来源,以解决开放域问答。任何事实性提问的答案,都是来自维基百科中的内容。

我们的方法结合了基于二元语法哈希(bigram hashing)和TF-IDF匹配的搜索组件,以及一个训练用来在维基百科段落中寻找答案的RNN模型。

我们在多个现有问答数据库上的实验表明:1、上述两个模块与现有方案相比优势很大 2、使用远监督的多任务学习,可以让上述组合更高效的完成任务。

为了回答任何问题,DrQA必须首先检索超过500万个条目中的相关文章,然后仔细扫描以确定答案。我们把这个成为大规模机器阅读(MRS)。

我们的工作将维基百科视为文章的集合,而不依赖于其内部图形结构。因此,这个通用方法可以切换到其他文件、书籍或是日报等领域。

像IBM DeepQA这样的大规模问答系统,依赖于多个来源给出答案:除了维基百科,DeepQA还是用了知识库、词典、新闻、书籍等。因此这样的系统严重依赖信息冗余来获得正确答案。

而只有单一知识来源,迫使模型在搜索答案时必须非常精确,因为相关证据可能只会出现一次。因此,这对机器阅读能力是一个挑战。

获取论文,可以在量子位微信公众号(QbitAI)对话界面回复:“drqa”四个字母。

开源代码

Facebook已经把DrQA问答系统的PyTorch实现公布在GitHub上。地址在此:

https://github.com/facebookresearch/DrQA

在这个页面上,Facebook还展示了一下DrQA的问答界面,我们挑选几个给大家看看。首先是这个问题:“生命、宇宙和一切的答案是什么?”

安装DrQA需要Python 3.5或以上,当然也需要安装PyTorch。更多细节都在requirements.txt中。

另外,Facebook还提供了预训练的模型,以及维基百科问答数据。这部分内容大小为7.5GB,解压之后约为25GB大小。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-07-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

开发 | Facebook、微软联合推出​ ONNX 标准,号称要解决开发框架碎片化

AI 科技评论消息,今日微软和 Facebook 发布了一个全新的开源项目——ONNX,欲借此打造一个开放的深度学习开发工具生态系统。 ONNX 的全称为“Op...

3554
来自专栏机器之心

业界 | 提供免费计算资源,开发平台AI Studio零门槛实现AI能力

AI Studio 是百度推出的一站式开发平台:一个囊括了 AI 教程、代码环境、算法算力、数据集,并提供免费的在线云计算的一体化编程环境。用户不必纠结于复杂的...

1500
来自专栏人工智能头条

Pytorch还是Tensorflow?英伟达工程师帮你总结了

662
来自专栏量子位

机器学习论文+代码大全,这个网站请收藏好

一个网站,关于机器学习的网站,在著名的reddit上获得国外网友的热情追捧。如果你要问为什么,其实特别简单。

1392
来自专栏AI科技大本营的专栏

整合PyTorch 0.4和Caffe 2,PyTorch 1.0能挑战TensorFlow吗?

【AI 科技大本营导读】5月2日,在加利福尼亚州举办的年度开发者 F8 大会上,Facebook 正式推出 PyTorch 1.0 。其实,早在 2017 年 ...

1963
来自专栏新智元

另一种开源:OpenAI 介绍深度学习基础设施

【新智元导读】OpenAI 昨天在博客发文,结合实例,介绍了 OpenAI 进行深度学习研究时采用的基础设施配置,并且提供了相关开源代码。文章激起了很多反响,其...

4125
来自专栏量子位

小米开源移动端深度学习框架MACE,自主研发,专为IoT设备优化

1635
来自专栏机器人网

【回顾】2017年最受欢迎的十大机器学习Python库

2017 年即将结束,又到了总结的时刻。本文作者把范围限定为机器学习,盘点了 2017 年以来最受欢迎的十大 Python 库;同时在这十个非常流行与强大的 P...

3138
来自专栏IT大咖说

两届黑客马拉松冠军:K8S深度学习平台实践经验分享

? 内容来源:2017年11月19日,饿了么资深后端工程师江骏在“11.19上海 | K8S Sail!系列技术沙龙”进行《饿了么Docker&K8S实践经验...

3719
来自专栏PPV课数据科学社区

数据仓库术语一览

数据仓库:数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常...

4277

扫码关注云+社区

领取腾讯云代金券