AACL2022 | “讲好中国故事” ! 一种基于数据增强的中文故事生成框架（竟然有源码）

ShuYini

发布于 2022-12-06 14:51:02

4370

引言

故事生成旨在基于特定输入生成较长的叙述内容，在自然语言处理中也是一项比较有挑战性的任务。之前看过的关于故事生成的模型大多都是针对英文的，而对于中文故事生成模型相对比较少。好巧不巧今天就遇到了，「今天给家分享的这篇文章厉害了，实验结果显示，本文模型框架优于最先进的中文故事生成模型」。

背景介绍

故事生成是一项具有挑战性的任务，主要是因为端到端神经网络模型在长文本生成过程中难以保持逻辑连贯性。「这些挑战在中文故事生成任务中更加突出，主要是因为缺少用于字符分隔的显式分隔符导致歧义程度增加」。另一方面，最近的研究工作旨在通过寻求更有效的框架来改进长文本生成，亦或者通过预培训和额外知识的注入的方式来增强现有框架。

然而，「本文观察发现当前的生成模型仍然难以生成流畅和连贯的中文故事，这可能是由于在书面中对中文特征捕获效率低下的结果」。例如，汉字有一系列的形态学解析策略，例如“小心地滑”可以理解为“小心地滑”(小心湿地板)或“小心地滑”(小心滑动)，其含义高度依赖于上下文。这可能会导致重要的句子角色，如主语、谓语和宾语，难以被神经模型识别和处理。此外，当神经网络学习一个话语的语义时，同义表达式可能会导致混淆，损害生成模型的鲁棒性，例如“游历”、“周游”和“游览”是不同的中文单词，但都表示“旅行”。因此，「我们提出训练神经网络学习上下文中包含的语义级特征，而不是字符的低级特征」。为此，本文提出了一个新的数据增强故事生成框架，如下图所示。