【斯坦福大学吴恩达博士生Ziang Xie】深度文本生成最佳实战指南(附指南下载)

【导读】人们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本 到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等。上述每项技术均极具挑战性,专知内容组整理一份关于深度文本生成最佳实践指南,这篇指南对上述前沿技术在应用中可能遇到的问题给出了参考的实践解决方案,对我们实际系统的开发很具参考意义。

▌作者


Ziang Xie 斯坦福大学Phd在读,导师Andrew Ng, 同时也是Ng著名的CS229 2017 《机器学习》课程的助教主管。http://cs229.stanford.edu/#

▌背景


文本自动生成是自然语言处理领域的一个重要研究方向,实现文本自动生成也是人工智 能走向成熟的一个重要标志。简单来说,我们期待未来有一天计算机能够像人类一样会写作, 能够撰写出高质量的自然语言文本。文本自动生成技术极具应用前景。例如,文本自动生成 技术可以应用于智能问答与对话、机器翻译等系统,实现更加智能和自然的人机交互;我们 也可以通过文本自动生成系统替代编辑实现新闻的自动撰写与发布,最终将有可能颠覆新闻 出版行业;该项技术甚至可以用来帮助学者进行学术论文撰写,进而改变科研创作模式。

按照不同的输入划分,文本自动生成可包括文本到文本的生成(text-to-text generation)、意义到文本的生成(meaning-to-textgeneration)、数据到文本的生成(data-to-text generation) 以及图像到文本的生成(image-to-text generation)等。上述每项技术均极具挑战性,在自然语 言处理与人工智能领域均有相当多的前沿研究,近几年业界已产生了若干具有国际影响力的 成果与应用。最值得一提的是,美联社自 2014 年 7 月开始已采用新闻写作软件自动撰写新 闻稿件来报道公司业绩,这大大减少了记者的工作量。美国洛杉矶时报也有一种用来撰写突 发新闻的应用软件。美国已有多家公司能够提供新闻写作软件与服务,比如美国“自动洞察 力”公司(Automated Insights)已采用“语言专家”软件撰写了 3 亿篇报道,包括橄榄球、财经报 道。这些进展标志着文本自动生成不再属于纸上谈兵的技术,而是已经对人类工作和生活产生了重大影响。

▌目录


目录:

1. 序言

1.1该指南的重点

1.1.1本文的局限:本文不涉及的内容

2. 背景

2.1设置

2.2编码器-解码器模型

2.3训练概述

2.4解码概述

2.5注意力

2.6评估

3. 预处理

4. 训练

5. 解码

5.1诊断

5.2一般问题

5.2.1稀有词和非登录词

5.2.2解码输出的短部分、截断部分或忽略输入部分

5.2.3重复解码输出

5.2.4多样化缺失

5.3部署

6. 结论

7. 致谢

▌序言


神经网络最近在机器学习的许多任务中取得了最先进的效果,包括自然语言处理,如情感理解和机器翻译。在NLP领域,一些核心任务,包括生成文本,以一些输入信息作为条件。在前几年,文本生成的主要技术是基于模板或以规则为基础的系统,或是易于理解的概率模型,如N-gram或对数线性模型。然而,这些规则和统计模型具有良好的解释性且效果不错,但是,在规则或基于模板的模型的情况下,要求大量的人工工作来扩大规模,并随着训练数据的增加而趋于饱和。另一方面,尽管文本的神经网络模型取得了广泛的成功,但其可解释性不强且有时表现不佳。图1描述了在这两种系统之间的权衡。

为了方便其他使用神经文本生成系统采用,我们详细地介绍NTG系统开发一些实用的建议。其中包括我们对训练和解码程序的简要概述,以及训练NTG模型的一些建议。主要介绍在解码过程中诊断问题和解决问题方法的建议。训练模型往往需要很长的时间来训练模型,比较好的方法是调整解码程序,因此,我们有必要了解如何在重新训练之前快速调整解程序。图2演示了改进模型训练和解码过程中,不同组件的反馈回路(feedback loops)。

尽管研究领域越来越多,关于如何进行最佳实践的方法变得分散,往往依赖于特定的模型体系结构。同时,本文提出了启动参数,本指南的目的是为那些刚开始不可知的体系结构提供实践指导,与误差分析的方法是相反的。首先阅读背景部分可能会有所帮助,剩下的部分读者可以单独阅读。

▌本指南的重点


本指南着重于对文本生成任务中神经编码器和解码器模型(带有注意机制)的训练和解码过程给出意见。大致来说,源和目标被假定为几十个符号序列。本指南的重点是解码过程。除了提出改进模型训练和解码算法的建议外,我们还简单地介绍了预处理(第3节)和部署(第5.3节)。

▌本文的局限:本文不涉及的内容


在讲解之前,我们将描述本指南不涉及的内容,以及当前神经文本生成模型的一些局限性。本指南不考虑以下几点:

  • 自然语言理解和语义。虽然word embedding工作已经取得了很好的效果,但是如何学习句子的“想要的向量”依然是令人难以捉摸的。正如前面我们也不考虑序列标签或分类任务。
    • 如何捕获长期依赖关系或维持全局共性。这仍然是一个挑战,因为维数灾难以及神经网络无法从下一步预测训练目标中学习更多抽象概念。
    • 如何将模型与知识库或其他结构化数据结合起来,这些知识数据都不能在短文本中提供。最近的一些工作为利用知识库使用了指针机制。
    • 因此,虽然我们专注于自然语言,但准确的说,本指南并不包括需要生成文件或更长的描述结构化数据的自然语言生成(NLG)任务。我们主要关注的是那些目标是一个单一的句子的任务,因此是“文本生成”而不是“语言生成”。

尽管这个领域发展很快,仍有基于规则或模板的方法往往是唯一合理技术。例如,ELIZA中的开创性工作Weizenbaum, 1966,该工作是一个效仿心理治疗师计算机程序,仍然是基于模式匹配和生成响应规则。一般来说,基于神经的系统无法执行此类系统所需的对话状态管理。或者考虑生成大量文档集摘要的任务,由于神经系统中使用的软注意力机制,目前还没有直接的方法来处理这种规模的文本。

图1:描述了在神经文本生成系统和基于规则的系统两者之间的权衡

图2:NTG系统的开发周期

引用:文本自动生成研究进展与趋势 万小军 冯岩松孙薇薇

http://www.icst.pku.edu.cn/lcwm/wanxj/files/TextGenerationSurvey.pdf

为了方便其他使用神经文本生成系统采用,我们详细地介绍NTG系统开发一些实用的建议。其中包括我们对训练和解码程序的简要概述,以及训练NTG模型的一些建议。主要介绍在解码过程中诊断问题和解决问题方法的建议。训练模型往往需要很长的时间来训练模型,比较好的方法是调整解码程序,因此,我们有必要了解如何在重新训练之前快速调整解程序。图2演示了改进模型训练和解码过程中,不同组件的反馈回路(feedback loops)。

尽管研究领域越来越多,关于如何进行最佳实践的方法变得分散,往往依赖于特定的模型体系结构。同时,本文提出了启动参数,本指南的目的是为那些刚开始不可知的体系结构提供实践指导,与误差分析的方法是相反的。首先阅读背景部分可能会有所帮助,剩下的部分读者可以单独阅读。

引用:文本自动生成研究进展与趋势 万小军 冯岩松孙薇薇http://www.icst.pku.edu.cn/lcwm/wanxj/files/TextGenerationSurvey.pdf

参考文献:

Neural Text Generation: A Practical Guide, Ziang Xie

http://cs.stanford.edu/~zxie/textgen.pdf

特别提示-深度文本生成最佳实践指南下载:

请关注专知公众号

  • 后台回复“NTGAPG” 就可以获取深度文本生成最佳实践指南pdf下载链接

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2017-11-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

深度学习成长的烦恼

本文为CSDN原创编译文章,禁止转载。 【编者按】深度学习尽管对当前人工智能的发展作用很大,然而深度学习工作者并非一帆风顺。Chris Edwards发表于Co...

1816
来自专栏数据派THU

独家 | 从零开始用python搭建推荐引擎(附代码)

当今社会的每个人都面临着各种各样的选择。例如,如果我漫无目的想找一本书读,那么关于我如何搜索就会出现很多可能。这样一来,我可能会浪费很多时间在网上浏览,并且在各...

3874
来自专栏数据派THU

当你的深度学习模型走进死胡同,问问自己这5个问题

来源:量子位 编译:安妮 本文长度为2509字,建议阅读4分钟 本文为你介绍深度学习中应该思考的5个问题。 深度学习是一项庞大又复杂的工程,在建立深度学习模型时...

1929
来自专栏灯塔大数据

每周学点大数据 | No.59协同过滤模型(下)

NO.58 协同过滤模型(下) Mr. 王:是的,前面的那种加权平均的形式,我们是可以直接利用的,其中的量稍作修改即可: ? 此时式中,Sij 表示的是i 和...

3455
来自专栏智能算法

蚁群算法(独辟蹊径的进化算法)

1. 算法背景——蚁群的自组织行为特征 高度结构化的组织——虽然蚂蚁的个体行为极其简单,但由个体组成的蚁群却构成高度结构化的社会组织,蚂蚁社会的成员有分...

3419
来自专栏携程技术中心

深度学习系列 | 知识库上的问答系统:实体、文本及系统观点

编者:本文来自复旦大学博士崔万云在携程技术中心主办的深度学习Meetup上的主题演讲,分享了复旦大学研发的基于知识图谱的QA系统。戳上面的“携程技术中心”(ct...

4276
来自专栏方舒的专栏

【 SPA大赛 】关于数据处理和特征工程的一些分享

笔者就对其进行了一些探索性的分析,包括对数据变量之间的联系和数据分布情况的统计,并对其进行了可视化。进行可视化之后,就可以对原始数据有进一步的了解,然后进行数据...

3640
来自专栏PPV课数据科学社区

基础篇:从 0 到 1 掌握 Python 机器学习(附资源)

Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0...

4948
来自专栏人工智能头条

AMiner背后的技术细节与挑战

1296
来自专栏新智元

【业界】亚马逊宣布开源深度学习工具,“Open”AI或成主流?

【新智元导读】亚马逊也被吹上“flow”的风口:继Facebook昨天公开其深度学习训练平台FBLearner Flow细节,亚马逊今日下午突然宣布开源其深度学...

3476

扫码关注云+社区