下一代信息服务新风口:以自然语言为基本输入方式的问答系统综述(附两篇论文)

下面是第3篇,关于问答系统,先了解这块的发展及研究现状。

11问答系统

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。

问答系统发展回顾

近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。在自然语言处理研究领域,问答系统被认为是验证机器是否具备自然语言理解能力的四个任务之一(其它三个是机器翻译、复述和文本摘要)。自动问答研究既有利于推动人工智能相关学科的发展,也具有非常重要的学术意义。

2011年,华盛顿大学图灵中心主任 Etzioni 在 Nature 上发表的《Search Needs a Shake-Up》中明确指出: 在万维网诞生 20 周年之际,互联网搜索正处于从简单关键词搜索走向深度问答的深刻变革的风口浪尖上。以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态。

此外,随着移动互联网崛起与发展,以苹果公司 Siri、Google Now、微软 Cortana 等为代表的移动生活助手爆发式涌现,上述系统都把以自然语言为基本输入方式的问答系统看作是下一代信息服务的新形态和突破口,并均加大人员、资金的投入,试图在这一次人工智能浪潮中取得领先。

问答系统需要解决的关键问题

自动问答系统在回答用户问题时,需要正确理解用户所提的自然语言问题,抽取其中的 关键语义信息,然后在已有语料库、知识库或问答库中通过检索、匹配、推理的手段获取答 案并返回给用户。上述过程涉及词法分析、句法分析、语义分析、信息检索、逻辑推理、知识工程、语言生成等多项关键技术。伴随着互联网和大数据的飞速发展,现有研究趋向于开放域、面向开放类型问题 的自动问答。概括地讲,自动问答的主要研究任务和相应关键科学问题如下。

1

问句理解

给定用户问题,自动问答首先需要理解用户所提问题。用户问句的语义理解包含词法分析、句法分析、语义分析等多项关键技术,需要从文本的多个维度理解其中包含的语义内容。

在词语层面,需要在开放域环境下,研究命名实体识别(Named Entity Recognition)、术语识别(Term Extraction)、词汇化答案类型词识别(Lexical Answer Type Recognition)、 实体消歧(Entity Disambiguation)、关键词权重计算(Keyword Weight Estimation)、答案集中词识别(Focused Word Detection)等关键问题。

在句法层面,需要解析句子中词与词之间、短语与短语之间的句法关系,分析句子句法结构。在语义层面,需要根据词语层面、句法层面的分析结果,将自然语言问句解析成可计算、结构化的逻辑表达形式(如一阶谓词逻辑表达式)。

2

文本信息抽取

给定问句语义分析结果,自动问答系统需要在已有语料库、知识库或问答库中匹配相关的信息,并抽取出相应的答案。为了适应互联网实际应用的需求,越来越多的研究者和开发者开始关注开放域知识抽取技术,其特点在于:

  • 文本领域开放:处理的文本是不限定领域的网络文本
  • 内容单元类型开放:不限定所抽取的内容单元类型,而是自动地从网络中挖掘内容单元的类型,例如实体类型、事件类型和关系类型等。

3

知识推理

自动问答中,由于语料库、知识库和问答库本身的覆盖度有限,并不是所有问题都能直接找到答案。这就需要在已有的知识体系中,通过知识推理的手段获取这些隐含的答案。

例如,知识库中可能包括了一个人的“出生地”信息,但是没包括这个人的“国籍”信息,因此无法直接回答诸如“某某人是哪国人?” 但是一般情况下,一个人的“出生地”所属的国家就是他(她)的“国籍”。在自动问答中,就需要通过推理的方式学习到这样的模式。

面对大规模、开放域的问答场景,如何自动进行规则学习,如何解决规则冲突仍然是亟待解决的难点问题。目前,基于分布式表示的知识表示学习方法能够将实体、概念以及它们之间的语义关系表示为低维空间中的对象(向量、矩阵等),并通过低维空间中的数值计算完成知识推理任务。

虽然这类推理的效果离实用还有距离,但是我们认为这是值得探寻的方法,特别是如何将已有的基于符号表示的逻辑推理与基于分布式表示的数值推理相结合,研究融合符号逻辑和表示学习的知识推理技术,是知识推理任务中的关键科学问题。

问答系统的技术方法

根据目标数据源的不同,已有自动问答技术大致可以分为三类:

  • 检索式问答;
  • 社区问答;
  • 知识库问答

以下分别就这几个方面对研究现状进行简要阐述。

1

检索式问答

检索式问答研究伴随搜索引擎的发展不断推进。根据抽取方法的不同,已有检索式问答可以分为基于模式匹配的问答方法和基于统计文本信息抽取的问答方法。

基于模式匹配的方法往往先离线地获得各类提问答案的模式。在运行阶段,系统首先判断当前提问属于哪一类,然后使用这类提问的模式来对抽取的候选答案进行验证。同时为了提高问答系统的性能,人们也引入自然语言处理技术。由于自然语言处理的技术还未成熟,现有大多数系统都基于浅层句子分析。

基于统计文本信息抽取的问答系统的典型代表是美国 Language Computer Corporation 公司的 LCC 系统。该系统使用词汇链和逻辑形式转换技术,把提问句和答案句转化成统一的逻辑形式(Logic Form),通过词汇链,实现答案的推理验证。LCC 系统在 TREC QA Track 2001 ~ 2004 连续三年的评测中以较大领先优势获得第一名的成绩。 2011 年,IBM 研发的问答机器人 Watson在美国智力竞赛节目《危险边缘 Jeopardy!》中战胜人类选手,成为问答系统发展的一个里程碑。Watson 的技术优势大致可以分为以下三个方面:

强大的硬件平台:包括 90 台 IBM 服务器,分布式计算环境;

强大的知识资源:存储了大约 2 亿页的图书、新闻、电影剧本、辞海、文选和《世界图书百科全书》等资料;

深层问答技术(DeepQA):涉及统计机器学习、句法分析、主题分析、信息抽取、 知识库集成和知识推理等深层技术。

然而,Watson 并没有突破传统问答式检索系统的局限性,使用的技术主要还是检索和匹配,回答的问题类型大多是简单的实体或词语类问题,而推理能力不强。

2

社区问答

随着 Web2.0 的兴起,基于用户生成内容(User-Generated Content, UGC)的互联网服务越来越流行,社区问答系统应运而生,例如 Yahoo! Answers、百度知道等。问答社区的出现为问答技术的发展带来了新的机遇。据统计 2010 年 Yahoo! Answers 上已解决的问题量达到 10 亿,2011 年“百度知道”已解决的问题量达到 3 亿,这些社区问答数据覆盖了方方面面的用户知识和信息需求。

此外,社区问答与传统自动问答的另一个显著区别是:社区问答系统有大量的用户参与,存在丰富的用户行为信息,例如用户投票信息、用户评价信息、回答者的问题采纳率、用户推荐次数、页面点击次数以及用户、问题、答案之间的相互关联信息等等,这些用户行为信息对于社区中问题和答案的文本内容分析具有重要的价值。

一般来讲,社区问答的核心问题是从大规模历史问答对数据中找出与用户提问问题语义相似的历史问题并将其答案返回提问用户。假设用户查询问题为q0,用于检索的问答对数据为SQ, A = {(q1 , a1 ), (q2 , a2 )}, … , (qn, an)}},相似问答对检索的目标是从SQ, A中检索出能够解答问题q0的问答对(qi , ai )。 针对这一问题,传统的信息检索模型,如向量空间模型、语言模型等,都可以得到应用。

但是,相对于传统的文档检索,社区问答的特点在于:用户问题和已有问句相对来说都非常短,用户问题和已有问句之间存在“词汇鸿沟”问题,基于关键词匹配的检索模型很难达到较好的问答准确度。目前,很多研究工作在已有检索框架中针对这一问题引入单语言翻译概率模型,通过 IBM 翻译模型,从海量单语问答语料中获得同种语言中两个不同词语之间的语义转换概率,从而在一定程度上解决词汇语义鸿沟问题。例如和“减肥”对应的概率高的相关词有“瘦身”、“跑步”、“饮食”、“健康”、“远动”等等。 除此之外,也有许多关于问句检索中词重要性的研究和基于句法结构的问题匹配研究。

3

知识库问答

检索式问答和社区问答尽管在某些特定领域或者商业领域有所应用,但是其核心还是关键词匹配和浅层语义分析技术,难以实现知识的深层逻辑推理,无法达到人工智能的高级目标。因此,近些年来,无论是学术界或工业界,研究者们逐步把注意力投向知识图谱或知识库(Knowledge Graph)。其目标是把互联网文本内容组织成为以实体为基本语义单元(节点)的图结构,其中图上的边表示实体之间语义关系。

目前互联网中已有的大规模知识库包括 DBpedia、Freebase、YAGO 等。这些知识库多是以“实体-关系-实体”三元组为基本单元所组成的图结构。基于这样的结构化知识,问答系统的任务就是要根据用户问题的语义直接在知识库上查找、推理出相匹配的答案,这一任务称为面向知识库的问答系统或知识库问答。要完成在结构化数据上的查询、匹配、推理等操作,最有效的方式是利用结构化的查询语句,例如:SQL、SPARQL 等。

然而,这些语句通常是由专家编写,普通用户很难掌握并正确运用。对普通用户来说,自然语言仍然是最自然的交互方式。因此,如何把用户的自然语言问句转化为结构化的查询语句是知识库问答的核心所在,其关键是对于自然语言问句进行语义理解。

目前,主流方法是通过语义分析,将用户的自然语言问句转化成结构化的语义表示,如范式和 DCS-Tree。相对应的语义解析语法或方法包括组合范畴语法( Category Compositional Grammar, CCG )以 及 依 存 组 合 语 法( Dependency-based Compositional Semantics, DCS)等。

这里分享两篇最新的问答系统的论文,都是用深度学习技术用到RNN,LSTM等,

更多文章:

一文读懂区块链是什么,教你如何用于商品打假?

MySQL|索引背后

SQL|语句执行逻辑

深度学习|理解LSTM网络(前篇)

深度学习|自然语言处理之词To词向量

自然语言处理|语言模型介绍

原文发布于微信公众号 - Python与机器学习算法频道(alg-channel)

原文发表时间:2018-03-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

盖茨基金会:如何使用Python拯救生命

20915
来自专栏数据科学与人工智能

【应用】信用评分卡:分类问题

我必须说,当三岁以上的女孩Amishi宣布,她只是与我妻子的朋友而不是我交往时,我感到震惊。 分手的原因是我是男孩,女孩只能是女孩的朋友。 她从幼儿园的朋友那里...

981
来自专栏ATYUN订阅号

灵活的折纸无人机可避免因碰撞受到的损坏

受日本折纸实践启发的发展,EPFL的团队也受到启发,为无人机创造出足够灵活的结构,以吸收外部冲击并恢复其初始形状。

762
来自专栏数据的力量

用工程师的思维加上 3D 建模,熬出一碗浓浓的鸡汤

1613
来自专栏腾讯数据中心

气流组织优化—数据中心节能的魔术手

引言 1946年数据中心诞生于美国,至今已经历4个阶段近70年的发展历程,数据中心从最初仅用于存储的巨型机,逐渐转向多功能、模块化、产品化、绿色化和智能化。在越...

4276
来自专栏ATYUN订阅号

超级计算模拟和机器学习:使用更加清洁高效的工作流体发电

在传统的蒸汽动力装置中,剩余的水必须与发电蒸汽分开。这一过程限制了效率,而在早期的发电厂,可能会发生剧烈的变化,导致爆炸。在20世纪20年代,Mark Bens...

1002
来自专栏机器之心

刚刚,AI顶会NIPS改名了!新的名字竟然是……

此举引发了人们的热议,此前,这一大会因为名称缩写「具有性别歧视的意味」而遭受争议。值得一提的是,NeurIPS 这个名字之前并没有出现在更名投票的选项中。

953
来自专栏华章科技

机票大数据分析,揭示购票的秘密

下图是CA1321一年的机票价格变化。每一行代表特定出发日期的价格变化,例如第一行代表2016年8月15日起飞的航班的机票价格的变化。一行里,左边离出发日期越近...

941
来自专栏量子位

“每天AI资讯这么多!该看哪些?”推荐一份优质资料清单

原作 BAILOOL & meetshah1995 Root 编译自 GitHub 量子位 出品 | 公众号 QbitAI 人工智能最近火到炸裂,不看吧担心和时...

3246
来自专栏大数据文摘

暮光女主发AI“论文”?维密超模学编程?女神跨界靠干货还是颜值?

2295

扫码关注云+社区

领取腾讯云代金券