前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯PCG长文:探究对话数据的局部分布特性与对抗回复生成模型的内在联系

腾讯PCG长文:探究对话数据的局部分布特性与对抗回复生成模型的内在联系

作者头像
机器之心
发布2023-03-29 17:51:17
3190
发布2023-03-29 17:51:17
举报
文章被收录于专栏:机器之心

机器之心专栏

作者:腾讯PCG、哈工大、北京大学等

当前,深度学习的不断发展使机器学习各研究方向之间的界限趋于模糊,出现了机器学习模型在不同领域(如 CV 与 NLP)和不同问题(如 NMT 与 NRG)之间的迁移使用的利好局面。但是,在实际的迁移使用过程中,容易出现模型表现与预期不符的情况,在这种情况下,对于特定问题的数据分布特性的考察和研判往往是更重要的环节。腾讯QQ研究团队近期在JMLR发表长文,以基于对抗学习的回复生成模型为背景,探讨了局部数据分布特性对于对抗学习的潜在影响,并在此基础上提出了一个新的对抗学习目标。

生成式对抗网络 (Generative Adversarial Nets, GAN)[1] 的出现和快速发展为机器学习领域中关键问题的解决提供了新的思路。在过去几年中,我们可以在各领域的各种任务中看到 GAN 一族模型的身影,其中当然也包括非任务型对话系统(Non-task Oriented Conversational System,即 ChatBot)当中的端到端回复生成问题(End-to-End Response Generation / Neural Response Generation, NRG)[2, 3]。

与 CV 领域的各种经典的生成任务相比,NRG 问题中引入对抗学习的时间较晚,但这并不影响研究者对于该方法潜在有效性的预判,尤其是人们普遍相信对抗过程引入的随机性可能对于解决 NRG 任务中的 safe response 问题起到显著作用。Safe response 问题特指基于 Encoder-Decoder 架构的端到端生成模型经常输出无意义或低信息量的回复,例如 I don't know 或 I also think so 等,这些句子可以作为大部分 query 的回复,但对于对话的展开和信息量的引入来说毫无意义,是 NRG 模型实际落地应用的主要障碍之一[4,5,6,7]。

显而易见,抑制 safe response 出现等价于提升生成结果的多样性(diversity),而从模型的视角来看,提升 diversity 的有效途径之一就是在生成过程中引入随机性。目前大家公认有两种典型的引入随机性的方法,一种是以 CVAE(Conditional Variational Autoencoder)为代表的基于显式数据分布假设的模型[8][9],另一种则是不显式指定数据分布假设的对抗学习模型[5][10]。受限于本文篇幅,这里不对 CVAE 一组进行过多分析,而主要集中于 GAN 一族模型的讨论。

经典 GAN 模型在 NRG 场景下的局限性

如果对 GAN-based NRG 进行实际训练,我们往往会发现,模型真正的学习状态似乎并没有想象中的那么理想。除了要克服模型整体的不可导问题之外,我们还需要面对训练的不稳定性和生成结果多样性不符合预期的问题。

GAN-NRG 生成结果的多样性不符合预期,这本身其实与引入 GAN 的初衷是相悖的。如果仔细观察经典 GAN 生成的回复结果,我们不难发现通过对抗生成的回复虽然比普通的 Seq2Seq 有更加丰富的 pattern,但是对于指定 query 的回复仍然存在比较明显的趋同倾向,也就是说,对抗学习的确对于生成结果的多样性起到了一定的推动作用,但是这种作用并不如预期般明显[5]。

  • 论文链接:https://www.jmlr.org/papers/volume22/20-052/20-052.pdf
  • 代码地址:https://github.com/Kramgasse49/local_gan_4generation

对于这个现象,我们在这里尝试从 GAN-NRG 的训练目标入手进行解释,进而找到解决整个问题的切入点。

经典的对抗学习框架由一生成模型 (Generator, G) 和一个判别模型 (Discriminator, D) 组成,其训练目标如下:

其中,p_d 为真实的数据分布,p_z 为基于随机噪声变量 z 生成的数据分布。

而在回复生成的场景下,输入数据是以 query-response (q-r)成对出现的,因此,对于上述训练目标(尤其是生成模型 G),在形式上应进行如下修改:

在这里,p_g 是样本 (q, \tilde(r)) 的数据分布,其中 \ tilde(r)表示 G 引入随机变量后生成的回复。显而易见,相比于真实存在的样本 (q, r) 的分布 p_d 来说,判别模型 D 的期望是更低的,即存在如下不等式关系:

与此同时,我们引入另一个事实:用于训练回复生成模型的数据集存在另一个典型特征,即给定一个 query q,其可能对应多个语义上各不相同的 response r,这也是回复生成问题与端到端机器翻译问题的主要区别之一。于是,我们不应该简单地将一个回复生成数据集看成是 N 个简单 (q, r) 对的集合 {(q, r)},而是应将其视为形如(q, R_q | R_q={r_i}) 的集合。于是,上述不等式应进行进一步的修正,得到如下形式:

从上述关系当中,可以发现一个重要的表达式

,在逻辑上,这个表达式指向了语义空间中的一个点,即当前 q 所有的回复 r 在语义空间中的质心,同时也代表了 GAN-NRG 训练的一个上限。

上述结论实际上暗示了一种可能的情况,即 GAN 在 NRG 模型上的应用,实际上最好的情况只能保证模型收敛到生成每个 query 所对应回复的局部 pattern 的状态,这也就解释了为什么 GAN 带来了多样性的提升却又没有符合预期的提升。当我们进一步分析这个结论的时候,会发现这个结果实际上是在说,对抗学习过程试图寻找的是每个小的回复集合 R_q 在语义空间中的 “位置”,而对于这个小集合本身的“形态” 并没有太多关注。换言之,如果我们找到一个办法,使模型能够同时关注这个小集合的形态,那么生成结果的多样性应该可以实现进一步的提升。

局部分布状态的描述

在这里我们希望找到一个方法,对给定 query 的回复集合 R_q 在语义空间中的局部状态进行建模和描述,这个目标可以形象地描述为确定语义空间中 R_q 这个簇的具体形状。为了达到这个目标,我们引入 free energy 首先对 (q, r) 的状态进行定义:

此处的能量函数 E 是在隐变量 H 的基础上对 (q, r) 能量状态的定义,在本文的场景下,其物理意义等价于度量 q 和 r 的语义关联。进一步地,在同样的物理意义下,我们引入 Deep Boltzmann Machine (DBM,如下图)对函数 E 进行定义如下:

由此,对于一个给定的 q 和回复集合 R_q,可以得到其 average free energy:

事实上,在通过上述公式定义 average free energy 之后,(q, R_q)在语义空间中的状态已经被形式化定义了,但是由于实际训练语料是有限的,因此我们很难有效枚举 R_q 的全集,也就是说,逻辑上需要通过有限可见的 response 集合去估计实际 R_q 的近似状态,从而实现一个可操作的训练过程。

为了达到这个目的,这里不妨假设在 R_q 的集合成员在语义空间中满足正态分布,其均值向量记为 r_c,协方差矩阵为 \ sigma,于是可以得到以下引理和定理:

引理 1 的意义在于明确了语义空间中的欧式距离与 free energy 的状态函数之间的依赖关系,即样本空间上的距离近似可以推导出相应能量函数上的近似。定理 1 则在引理 1 的基础上,找到了公式 9 中 average free energy 的一个近似估计,即通过正确完整训练的 DBM 在输入 q 的情况下得到 \ hat(r_c),则 F(q, \hat(r_c))即为 average free energy 的近似解。引理 1 和定理 1 的证明相对比较复杂,详见论文原文。

Hybrid Objective 与 LocalGAN

基于以上的定义和推导,一个描述给定 query 的回复集合 R_q 的空间局部分布状态的方法呼之欲出。在此之前,我们先给出描述两个回复 r_i 和 r_j 之间的能量差异的数值定义:

进一步则可以定义给定的回复簇中 R_q 中任意一个 r 相对于 r_c 的能量差异:

又根据定理 1,有如下近似关系:

这里我们称 alpha 为 (q, r) 的径向分布函数。进而,对于任意一个由生成模型 G 得到的 fake response \tilde(r),我们可以计算与其对应的真实回复 r 之间的径向分布差异:

公式 16 度量的是 r 与 \ tilde(r)相对于 cluster center 的径向分布差异。于是,通过融合经典 GAN 的训练目标与上述径向分布差异,我们最终得到了一个新的 hybrid objective,即 LocalGAN 的 training objective:

基于该训练目标,可以构造 LocalGAN 的训练算法如下:

实验结果

我们对 LocalGAN 的实际效果进行了多方面的验证,包括基于经典中英文对话训练数据 OpenSubtitles Corpus 和 Sina Weibo Corpus,使用面向相关性和多样性的典型 metric 进行评测。Baseline 方面,论文引入了截至完稿的各种主要对抗学习模型进行对比。结果如下:

在人工评测方面,主要考虑了相关性和信息丰富度的评价维度:

与此同时,我们也观察了对抗模型训练的稳定性,结果如下图:

部分参考文献:

[1]Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems 27, pages 2672-2680, 2014.

[2]Lifeng Shang, Zhengdong Lu, and Hang Li. Neural responding machine for short-text conversation. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP), pages 1577-1586, 2015.

[3]Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Margaret Mitchell, Jian-Yun Nie, Jianfeng Gao, and Bill Dolan. A neural network approach to context-sensitive generation of conversational responses. In Proceedings of the 14th Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pages 196-205, 2015.

[4]Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan. A diversity-promoting objective function for neural conversation models. In Proceedings of NAACL-HLT, pages 110-119, 2016.

[5]Zhen Xu, Bingquan Liu, Baoxun Wang, SUN Chengjie, Xiaolong Wang, Zhuoran Wang, and Chao Qi. Neural response generation via gan with an approximate embedding layer. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing,pages 628-637, 2017.

[6]Ruqing Zhang, Jiafeng Guo, Yixing Fan, Yanyan Lan, Jun Xu, and Xueqi Cheng. Learning to control the specicity in neural response generation. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1108-1117, Melbourne, Australia, July 2018a. Association for Computational Linguistics.

[7]Jun Gao, Wei Bi, Xiaojiang Liu, Junhui Li, Guodong Zhou, and Shuming Shi. A discrete cvae for response generation on short-text conversation. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 1898-1908, 2019. 25

[8]Bowen Wu et al., Guiding Variational Response Generator to Exploit Persona. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL 2020). pages 53-65, 2020

[9] Gao, Jun, et al. "A Discrete CVAE for Response Generation on Short-Text Conversation." Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019

[10]Jiwei Li, Will Monroe, Tianlin Shi, Alan Ritter, and Dan Jurafsky. Adversarial learning for neural dialogue generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2157-2169, 2017.

[11]Geoffrey E. Hinton and Richard S Zemel. Autoencoders, minimum description length and helmholtz free energy. In Advances in neural information processing systems, pages 3-10, 1994.

[12]Ruslan Salakhutdinov and Geoffrey E. Hinton. Deep boltzmann machines. In International Conference on Artifcial Intelligence and Statistics, pages 448-455, 2009.

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

  • 点击阅读原文,访问机动组官网,观看全部视频内容:
  • 关注机动组服务号,获取每周直播预告。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档