专栏首页算法channel一文梳理NLP之机器翻译和自动摘要的发展现状

一文梳理NLP之机器翻译和自动摘要的发展现状

NLP的研究现状系列文章总结前三篇:

1 一文了解自然语言处理的每个范畴用到的核心技术,难点和热点(1)

2 NLP入门:CNN,RNN应用文本分类,个性化搜索,苹果和乔布斯关系抽取(2)

3 下一代信息服务新风口:以自然语言为基本输入方式的问答系统综述(附两篇论文)

12机器翻译

1

理论应用

机器翻译(machine translation,MT)是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译。被翻译的语言称为源语言(source language),翻译到的语言称作目标语言(target language)。

简单地讲,机器翻译研究的目标就是建立有效的自动翻译方法、模型和系统,打破语言壁垒,最终实现任意时间、任意地点和任意语言的自动翻译,完成人们无障碍自由交流的梦想。

从理论上讲,机器翻译涉及语言学、计算语言学、人工智能、机器学习,甚至认知语言学等多个学科,是一个典型的多学科交叉研究课题,因此开展这项研究具有非常重要的理论意义,既有利于推动相关学科的发展,揭示人脑实现跨语言理解的奥秘,又有助于促进其他自然语言处理任务,包括中文信息处理技术的快速发展。

可以说离开机器翻译,基于大数据的多语言信息获取、挖掘、分析和决策等其他应用都将成为空中楼阁。尤其值得提出的是,在未来很长一段时间里,建立于丝绸之路这一历史资源之上的“一带一路”将是我国与周边国家发展政治、经济,进行文化交流的主要战略。据统计,“一带一路”涉及 60 多个国家、44 亿人口、53 种语言,可见机器翻译是“一带一路”战略实施中不可或缺的重要技术。

2

技术现状

基于规则的机器翻译方法需要人工设计和编纂翻译规则,统计机器翻译方法能够自动获取翻译规则,但需要人工定义规则的形式,而端到端的神经网络机器翻译方法可以直接通过编码网络和解码网络自动学习语言之间的转换算法。

从某种角度讲,其自动化程度和智能化程度在不断提升,机器翻译质量也得到了显著改善。机器翻译技术的研究现状可从欧盟组织的国际机器翻译评测(WMT)的结果中窥得一斑。 该评测主要针对欧洲语言之间的互译,2006 年至 2016 年每年举办一次。对比法语到英语历年的机器翻译评测结果可以发现,译文质量已经在自动评价指标 BLEU 值上从最初小于 0.3 到目前接近 0.4(大量的人工评测对比说明,BLEU 值接近 0.4 的译文能够达到人类基本可以理解的程度)。

虽然机器翻译系统评测的分值呈逐年增长的趋势,译文质量越来越好,但与专业译员的翻译结果相比,机器翻译还有很长的路要走,可以说,在奔向“信、达、雅”翻译目标的征程上,目前的机器翻译基本挣扎在“信”的阶段,很多理论和技术问题仍有待于更深入的研究和探索。

13自动摘要

1

概念

自动文摘(又称自动文档摘要)是指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),该摘要中的句子可直接出自原文,也可重新撰写所得。简言之,文摘的目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。用户可以通过阅读简短的摘要而知晓原文中所表达的主要内容,从而大幅节省阅读时间。

2

应用

自动文摘研究的目标是建立有效的自动文摘方法与模型,实现高性能的自动文摘系统。 近二十年来,业界提出了各类自动文摘方法与模型,用于解决各类自动摘要问题,在部分自动摘要问题的研究上取得了明显的进展,并成功将自动文摘技术应用于搜索引擎、新闻阅读等产品与服务中。例如谷歌、百度等搜索引擎均会为每项检索结果提供一个短摘要,方便用户判断检索结果相关性。在新闻阅读软件中,为新闻事件提供摘要也能够方便用户快速了解该事件。2013 年雅虎耗资 3000 万美元收购了一项自动新闻摘要应用 Summly,则标志着自动文摘技术的应用走向成熟。

自动文摘的研究在图书馆领域和自然语言处理领域一直都很活跃,最早的应用需求来自 于图书馆。图书馆需要为大量文献书籍生成摘要,而人工摘要的效率很低,因此亟需自动摘 要方法取代人工高效地完成文献摘要任务。随着信息检索技术的发展,自动文摘在信息检索系统中的重要性越来越大,逐渐成为研究热点之一。经过数十年的发展,同时在 DUC 与 TAC 等自动文摘国际评测的推动下,文本摘要技术已经取得长足的进步。国际上自动文摘方面比较著名的几个系统包括 ISI 的 NeATS 系统,哥伦比亚大学的 NewsBlaster 系统,密歇根大学的 NewsInEssence 系统等。

3

研究方法

自动文摘所采用的方法从实现上考虑可以分为抽取式摘要(extractive summarization) 和生成式摘要(abstractive summarization)。抽取式方法相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、 语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。目前的自动文摘方法主要基于句子抽取,也就是以原文中的句子作为单位进行评估与选取。抽取式方法的好处是易于实现,能保证摘要中的每个句子具有良好的可读性。

为解决如前所述的要点筛选和文摘合成这两个关键科学问题,目前主流自动文摘研究工作大致遵循如下技术框架: 内容表示 → 权重计算 → 内容选择 → 内容组织。首先将原始文本表示为便于后续处理的表达方式,然后由模型对不同的句法或语义单元进行重要性计算,再根据重要性权重选取一部分单元,经过内容上的组织形成最后的摘要。

01

内容表示与权重计算

原文档中的每个句子由多个词汇或单元构成,后续处理过程中也以词汇等元素为基本单 位,对所在句子给出综合评价分数。

以基于句子选取的抽取式方法为例,句子的重要性得分由其组成部分的重要性衡量。由于词汇在文档中的出现频次可以在一定程度上反映其重要性, 我们可以使用每个句子中出现某词的概率作为该词的得分,通过将所有包含词的概率求和得到句子得分。

也有一些工作考虑更多细节,利用扩展性较强的贝叶斯话题模型,对词汇本身的话题相关性概率进行建模。 一些方法将每个句子表示为向量,维数为总词表大小。 通常使用加权频数作为句子向量相应维上的取值。加权频数的定义可以有多种,如信息检索中常用的词频-逆文档频率 (TF-IDF)权重。

也有研究工作考虑利用隐语义分析或其他矩阵分解技术,得到低维隐含语义表示并加以利用。得到向量表示后计算两两之间的某种相似度(例如余弦相似度)。随后根据计算出的相似度构建带权图,图中每个节点对应每个句子。在多文档摘要任务中,重要的句子可能和更多其他句子较为相似,所以可以用相似度作为节点之间的边权,通过迭代求解基于图的排序算法来得到句子的重要性得分。

也有很多工作尝试捕捉每个句子中所描述的概念,例如句子中所包含的命名实体或动词。

出于简化考虑,现有工作中更多将二元词(bigram)作为概念。近期则有工作提出利用频繁图挖掘算法从文档集中挖掘得到深层依存子结构作为语义表示单元。

另一方面,很多摘要任务已经具备一定数量的公开数据集,可用于训练有监督打分模型。例如对于抽取式摘要,我们可以将人工撰写的摘要贪心匹配原文档中的句子或概念,从而得到不同单元是否应当被选作摘要句的数据。然后对各单元人工抽取若干特征,利用回归模型或排序学习模型进行有监督学习,得到句子或概念对应的得分。

文档内容描述具有结构性,因此也有利用隐马尔科夫模型(HMM)、条件随机场(CRF)、结构化支持向量机(Structural SVM)等常见序列标注或一般结构预测模型进行抽取式摘要有监督训练的工作。所提取的特征包括所在位置、包含词汇、与邻句的相似度等等。对特定摘要任务一般也会引入与具体设定相关的特征,例如查询相关摘要任务中需要考虑与查询的匹配或相似程度。

02

内容选择

无论从效果评价还是从实用性的角度考虑,最终生成的摘要一般在长度上会有限制。在 获取到句子或其他单元的重要性得分以后,需要考虑如何在尽可能短的长度里容纳尽可能多 的重要信息,在此基础上对原文内容进行选取。内容选择方法包括贪心选择和全局优化。

相比机器翻译、自动问答、知识图谱、情感分析等热门领域,自动文摘在国内并没有受到足够的重视。国内早期的基础资源与评测举办过中文单文档摘要的评测任务,但测试集规 模比较小,而且没有提供自动化评价工具。2015 年 CCF 中文信息技术专委会组织了 NLPCC 评测,其中包括了面向中文微博的新闻摘要任务,提供了规模相对较大的样例数据和测试数据,并采用自动评价方法,吸引了多支队伍参加评测,目前这些数据可以公开获得。但上述中文摘要评测任务均针对单文档摘要任务,目前还没有业界认可的中文多文档摘要数据,这在事实上阻碍了中文自动摘要技术的发展。

近些年,市面上出现了一些文本挖掘产品,能够提供中文文档摘要功能(尤其是单文档 摘要),例如方正智思、拓尔思(TRS),海量科技等公司的产品。百度等搜索引擎也能为检索到的文档提供简单的单文档摘要。这些文档摘要功能均被看作是系统的附属功能,其实现方法均比较简单。

更多文章:

NLP入门:CNN,RNN应用文本分类,个性化搜索,苹果和乔布斯关系抽取(2)

深度学习|大师之作,必是精品

免费送6本精选的算法,机器学习,深度学习的书

深度学习|循环神经网络之LSTM(后篇)

深度学习|卷积神经网络(CNN)介绍(后篇)

深度学习|对隐含层的感性认识

深度学习|神经网络模型求解思路总结

本文分享自微信公众号 - Python与机器学习算法频道(alg-channel),作者:alg-flody

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基本算法|图解各种树(四)

    基本算法|图解各种树(一) 基本算法|图解各种树(二) 基本算法|图解各种树(三) 01 局部性 刚被访问过的数据,极有可能很快地再次被访问,这一现象在信息...

    double
  • 《Python 使用秘籍》 前四章

    近来有朋友问我可否整理一个pdf版本,从下午到现在使用vscode 及相关插件markdown pdf ,精心制作了以上四期汇总后的pdf,pdf 左侧大纲目录...

    double
  • json读入小结

    回家已经11点后,写一点今天工作中用到的知识,不太熟练,耽误了些时间。因为任务紧急,类似这种对某个知识点不熟练,累计叠加起来,就会导致做事变慢,最终只能靠加班。

    double
  • Deep Reinforcement Learning: An Overview 全面的概述论文

    用户1908973
  • 小程序 · 一周报

    针对近期部分小程序接口能力使用不合理的情况,微信公众平台将对接口能力进行调整。调整方案具体如下:

    极乐君
  • 教你使用“百度统计”黑科技,根据不同维度分析网站的访问质量

    跳出率指的是只访问了入口页面(例如网站首页)就离开的访问量与所产生总访问量的百分比。跳出率计算公式:跳出率=访问一个页面后离开网站的次数/总访问次数。

    架构师小跟班
  • ACL2019论文阅读笔记——基于单句和双句打分的生成式摘要

    论文Scoring Sentence Singletons and Pairs for Abstractive Summarization发表于2019年自然语...

    linhw
  • linux 安装 python3

    python在使用时,可能会使用ssl模块。所以在编译时,可以直接将ssl模块编译进去。

    py3study
  • 剑指Offer的学习笔记(C#篇)-- 二叉搜索树的后序遍历序列

    (2). 二叉查找树,又被称为二叉搜索树。其特点如下:设x为二叉查找树中的一个结点,x节点包含关键字key,一句话就是左孩子比父节点小,右孩子比...

    WeiMLing
  • 代码审计之DTCMS V5.0后台漏洞两枚

    Gcow安全团队

扫码关注云+社区

领取腾讯云代金券