AAAI 2022 oral | 复旦x字节等提出：基于无监督编辑的反事实故事改写

AI科技评论

发布于 2022-03-03 18:21:40

6200

发布于 2022-03-03 18:21:40

文章被收录于专栏：AI科技评论

作者丨陈江捷

前言

如何根据一个新的条件来改写一个故事的结局？这个问题的自动解决需要机器具备反事实推理能力，即根据原故事和新条件来想象新的故事结局的能力。故事改写任务的核心问题在于：我们能否只对原始结局进行最少的编辑就能产生一个新的合理的故事结局？更重要的是，我们如何在无监督的情况下想象未来的可能性？

本文介绍了复旦大学、字节跳动人工智能实验室等机构的研究者的最新工作EDUCAT，相关工作已经被AAAI 2022录用 (oral)。EDUCAT采用了基于MCMC采样的文本编辑框架来改写反事实故事结局，并利用因果风险率计算需要修改的单词与修改后的流畅度判断。在故事改写数据集TimeTravel的结果表明，EDUCAT生成的故事新结局在最小编辑和通顺性上取得了比前人工作更好的权衡。

Paper: https://arxiv.org/abs/2112.05417

Code: https://github.com/jiangjiechen/EDUCAT

研究背景

自动故事写作是自然语言处理和生成最需要的功能之一。首先，让我们先来写一个想吃牛排的人的小故事：

他发现今天是一个阳光明媚的好日子，于是他决定出去玩。他遇到了一家不错的餐馆。终于，他吃到了美味的牛排。

可是，如果今天是下雨天呢？在这种情况下，我们必须重写结尾，以满足这种条件的变化。

所以他发现外面下雨了，他不得不待在家里。

那他该怎么办？我们知道他还想吃牛排。

所以他决定在家里自己做饭。最后，我们的主角还是得到了一块美味的牛排。

图1: “假如今天下雨了，我会怎么办？”

这实际上就是反事实故事改写的任务，这对于创意写作来说是一项非常有趣的任务。与故事写作不同，故事改写需要一个模型来改写结局以适应条件的变化。此任务的目标是生成与新条件一致的新结局。

为了解决这个任务，系统需要反事实推理的能力，这是一个假设的思维过程，改写某些先决条件从而得到其他可能的答案，通常会以“假如……那么”的形式存在。构建通用人工智能系统，其中巨大的挑战之一就是让机器具备反事实推理的能力。如果我做的不同呢？会有什么不同？我应该后悔我的决定吗？这些问题使系统能够做出更好、更稳健的决策。

当然，机器要具备这种推理能力是相当困难的。反事实推理中最重要的挑战之一是找到因果不变性，这是在一系列事件中随着条件变化而保持不变的因素。在我们刚刚创建的故事中，因果不变性是主角今天无论如何都想吃到牛排。所以不管天气如何，他今天总是会吃一块牛排。

我们能否只对原始结局进行最少的编辑就能产生一个新的故事结局？在这一任务之中，主要的难题是在于如何保证生成的故事自然连贯的同时，又可以保证是在原始的文本上做的最小的改动。如果希望同时满足这两点，则需要找出故事中的因果不变性，即根据前提中作出的修改，故事中有哪些部分是保持不变仍符合逻辑的。

我们知道，基于原始的故事结局，机器可以通过大量的编辑来产生一个新的故事结局。特别是随着 GPT-2 等预训练语言模型的巨大成功，写出流利的文本现在已经非常容易。然而事实上我们只需要编辑几个单词就能创建一个新的结局，如图2中高亮的单词所示。更重要的是，我们希望在没有监督的情况下做到这一点，因为让人类去想象可能的未来并不是一件需要训练的事情，这一切都自然地发生在我们的脑海中。

图2: 如何通过仅修改部分单词改写出反事实故事结局？

无监督故事改写

为了更好地权衡取舍，在本文中，我们为反事实重写任务提出了一个基于编辑的框架，名为 EDUCAT (EDiting-based Unsupervised Counterfactual generATion)。在介绍我们的方法之前，先来简单介绍一下这个任务的建模形式。

问题建模

我们可以用因果关系模型来表达反事实故事改写任务。因果关系模型是一种用于对数据生成过程的假设进行编码的有向无环图，一般包括混杂因子

(confounder)、处置

(treatment) 和效果

(effect)。图3表示了用因果关系模型来表达反事实文本改写任务的示例。一个故事可以包含改写前后不变的前提

、改写的条件

和结尾

。

既包括能够观测的前提，也包括不能被观测并且难以建模的常识性知识。

图3: 故事改写中的结构化因果模型

图3展示了对因果关系模型中的

变量施加干预（即，反事实干扰）而产生的文本改写任务。可以用do操作符来表示所施加的反事实干扰。通过施加

，将X的值设置为改变后的条件，而不改变其余部分。因此，改变后的条件可以视为一种反事实上下文。

此任务中，具有挑战的是如何量化评估改写后的结尾是否连贯。在本文中，我们借鉴因果风险率（Causal Risk Ratio，CRR）的定义来量化不同条件下结尾的差异：

其中改写后的结尾与改变后的上下文越一致，CRR的值越大。然而，实际上难以显式地计算其中能够被观测和不能被观测的混杂因子。为此，我们可以进行因果充分性假设，即仅考虑能够被观测的混杂因子：

这样便可以近似得到：

故事改写

基于无监督受限文本生成框架[1]，我们针对故事改写任务设计了我们的模型EDUCAT。

我们以马尔可夫链蒙特卡洛采样（Markov chain Monte Carlo, MCMC）的代表性算法之一 Metropolis-Hastings 算法为基础，迭代式地寻找需要编辑的单词并提出编辑提议，并根据期望的属性计算出的接受率

，提议的新句子要么被接受，要么被拒绝。上述过程重复进行，直到收敛到稳态分布。将接受率定义为：

为了启动采样过程，接下来需要计算的就只剩下提议分布

与稳态分布

。

由于 MH 算法的接受率定义中，我们只需要计算前后稳态分布的比值，因此

可以定义为正比于我们想要的属性

，如流畅性、词汇限制等等，即

。

定义目标属性

针对反事实推理能力，我们不仅希望生成的新的结尾是通顺的，同时在逻辑上和改变后的条件较原始的条件更为连贯。因此，我们定义了两种得分函数，一个是衡量通顺度的得分函数

另一个是衡量连贯性的函数，我们受CRR的计算方式启发，将其定义为：

因此稳态分布

可以定义为两者的乘积，即

采用上述目标属性进行约束后，我们需要解决两个主要的问题，其一是，找出故事需要修改的地方，其二是，做出相应的修改。

寻找冲突单词

针对寻找需要修改的地方，我们采用冲突检测的思路，通过改变条件

之后的评估当前结尾文本的概率，去寻找最可能矛盾的词。我们定义当前的结尾

中第

个词

的冲突概率为

直观上说，如果

越大，表明其与原始上下文较新的上下文更相关，因此更可能会产生冲突，所以有更高的优先级去编辑校正。通过寻找冲突单词，可以大大加速采样的收敛过程。

进行冲突修改

找到需要修改的位置后，我们随机从三种操作方法（替换，删除和插入）中抽样出一种进行操作以计算

。我们参考CGMH的做法，利用掩码语言模型 (Masked Language Model, MLM) 如BERT来进行新词提议。具体操作如下：

替换：将需替换的词用[MASK]替换，并使用MLM进行预测候选并采样；
插入：在插入位置新增一个[MASK]，同替换操作；
删除：插入的逆操作，即计算

最后，构造的新句子会根据由接收率的计算公式计算得到接受还是拒绝的判断。我们将接受的句子按目标属性排序并取最大值为最终的故事新结局。

主要实验结果

由于EDUCAT是完全无监督的模型，我们在反事实故事改写数据集TimeTravel [2] 的测试集上验证了我们的算法，并与这个数据集上的无监督SOTA对比了效果。

但是，由于现有文本生成指标难以评估改写后的故事逻辑一致性，我们在TimeTravel的训练集上训练了一个基于RoBERTa的二分类模型作为逻辑一致性评估指标，称作EntScore，即判断新结尾是否蕴含了新的故事条件。为了更好地评估此任务中的微妙权衡，我们计算了 EntScore 和 BLEU 的调和平均 (harmonic mean) 来表示一致性和最小编辑之间的权衡：

表1: 自动评估指标与人类评估的相关性

我们人工验证了不同指标与人类评估的相关性，发现EntScore显著得比BERTScore和BLEU要好，并且HMean要更胜一筹，表明了维持一致性和最小编辑之间的权衡的重要性。

表2: EDUCAT与基线模型在自动化评估指标上的对比

表2展示了我们的方法与基线模型在 TimeTravel 数据集上的自动评估结果。我们观察到，生成连贯结尾的模型也会导致过度的编辑。其中，就平衡指标HMean而言，EDUCAT实现了最佳的效果。

有趣的是，零样本 GPT-2 和 DeLorean[3] 在 EntScore 中表现非常好，但在 BLEU 和 BERTScore 中表现不佳。这是因为 GPT-2 不会限制生成时的最小编辑。它可以生成流畅的结尾，但同时也带来了过度编辑 (over-editing) 和过度联想 (hallucination)。DeLorean 也有类似的问题，但其通过限制了新结局与原始结局的相似度缓解了这种情况。

事实上，大量的编辑很容易生成连贯的结尾，所以即使是零样本 GPT-2 也可以在连贯性方面获得高分。然而，这项任务需要在最小编辑的情况下找到具有因果不变性的情节，这对模型的能力提出了更高的要求。

表3: EDUAT与基线模型在人工评估指标上的对比

除了自动评估之外，我们对三个模型的预测结果进行了针对流畅度和最小编辑的人工评估。表3的结果也展示了EDUCAT相比于另外两个基线模型具有的优势。

图4: 案例分析

最后，我们在图4中展示了一些各种方法产生的结果。总体而言，EDUCAT在最小编辑和与反事实上下文的逻辑一致性之间保持较好的平衡。例如在图四的例子中，EDUCAT进行了关键和合乎逻辑的编辑。例如，太阳的位置应该是低（low），因为是在晚上（改变后的条件）。EDUCAT 也展示了一些常识知识，比如因为天气开始变凉时不需要空调，而 park 是晚上去（散步）的好地方。

总结

在这项工作中，我们表明基于编辑的方法也非常适合生成式反事实推理。并且，更好的连贯性打分函数、更多想满足的属性等，都将有利于无监督的反事实故事改写任务。最为重要的是，所谓兵马未动粮草先行，未来的工作应当关注于如何设计更好的指标来评估这项任务，这样才能真正促进反事实推理的发展。

参考文献

Ning Miao, Hao Zhou, Lili Mou, Rui Yan, and Lei Li. "Cgmh: Constrained sentence generation by metropolis-hastings sampling." AAAI (2019).
Jiangjie Chen, Chun Gan, Sijie Cheng, Hao Zhou, Yanghua Xiao, and Lei Li. "Unsupervised Editing for Counterfactual Stories." AAAI (2022).
Lianhui Qin, Antoine Bosselut, Ari Holtzman, Chandra Bhagavatula, Elizabeth Clark, and Yejin Choi. "Counterfactual story reasoning and generation." EMNLP (2019).
Lianhui Qin, Vered Shwartz, Peter West, Chandra Bhagavatula, Jena Hwang, Ronan Le Bras, Antoine Bosselut, and Yejin Choi. "Back to the future: Unsupervised backprop-based decoding for counterfactual and abductive commonsense reasoning." EMNLP (2020).