前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本生成统一框架Texygen实践

文本生成统一框架Texygen实践

作者头像
sparkexpert
发布2019-05-26 14:03:21
9760
发布2019-05-26 14:03:21
举报

文本生成是自然语言理解的高级阶段,是实现类人智能的重要手段之一。Geek.AI在AAAI2018中推出了LeakGAN后,终于又推出了TexyGen这个开源文本生成框架。由于之前就想对leakgan深入地看一下,不过这回可以通过TexyGen这个框架来实现实现对近几年的所有文本生成模型的直接实现。

目前其支持的模型如下:

Implemented Models and Original Papers

从SeqGAN, LeakGAN、TextGAN等全部涵盖在里面。GAN是实现无监督学习和样本生成的重要方法,而GAN与NLP的结合来实现文本生成也是很自然的切入点。GAN的成功激发了人们对文本离散数据对抗性训练研究的兴趣。例如,序列生成对抗网络SeqGAN是应用REINFORCE算法解决原始GAN目标函数的离散优化的早期尝试之一。自那以后,研究人员提出了许多改进SeqGAN的方法来进一步提升SeqGAN的性能,例如梯度消失(MaliGAN ,RankGAN ,LeakGAN 使用的自举再激活),以及生成长文本时的鲁棒性(LeakGAN)。

LeakGAN的原理框架如下所示:

Texygen框架呢则实现将所有的GAN以派生的方式进行综合抽象。

此外,重要的是Texygen提供了一个多元化的文本评价指标体系,它包括了5个文本生成的评测指标,主要如下:

基于文档相似度的指标。生成的文档质量的最直观的评测指标是文档与自然语言或者训练数据集的类似程度:

  • BLEU:基于词袋(bag of words)模型的评测指标。以词和词组为基本单位。
  • EmbSim :使用模型输出的序列训练出的词向量的相互相似性特征定义的评测指标。以基本词元(token)为基本单位。

基于似然性(likelihood)的指标:

  • NLL-oracle:基于人造数据的似然度估计。衡量待评测语言模型的输出在构造出的人造数据模型衡量下的负对数似然。
  • NLL-test:基于测试数据的似然度估计。衡量构造出测试数据在待评测语言模型的衡量下的负对数似然。

基于多样性评价的指标:

  • Self-BLEU:基于词袋(bag of words)模型的评测指标。衡量一个模型的每一句输出与此模型其他输出的相似性。以词和词组为基本单位。

2、实践训练

此处只以leakgan的训练进行RUN。

可以看出在每个epoch中,都会计算评测的数值。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年05月03日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Implemented Models and Original Papers
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档