首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

GPTGPT2DialoGPT 详解对比与应用-文本生成与对话

DialoGPT DialoGPT扩展了GPT-2来应对对话神经响应生成(conversational neural response generation model)遇到的挑战。...类似于GPT-2,DialoGPT也表示为一个自回归(autoregressive, AR)语言模型,利用多层transformer模型架构。...但是不同于GPT-2,DialoGPT在从Reddit讨论链中提取的大规模会话对上进行训练。...作者的假设是这可以让DialoGPT捕捉到更细粒度的对话流中的联合概率分布P(Target, Source)。在实践中观测到,DialoGPT产生的句子是多样的,并且包含了针对源句子的信息。...无论在自动评估还是人类评估中,DialoGPT都展示了最先进的结果,将表现提升到接近人类回复的水平。 4.1 模型架构 作者在GTP-2架构的基础上训练DialoGPT模型。

8.2K155

一文速览 | 对话生成预训练模型

| 惠惠惠惠惠惠然 整理 | NewBeeNLP 大规模预训练言模型在生成式对话领域近年来有非常多的工作,如百度PLATO系列(PLATO[1]/PLATO-2[2]/PLATO-XL[3]),微软DialoGPT...的结构 「Transformer-ED」 例如Google Meena以及FaceBook Blender; Transformer的Decoder结构 「Transformer-Dec」 比如微软DialoGPT...「MMI Rank (maximum mutual information rank)」 MMI Rank最早在微软的DialoGPT中被使用,它是一个基于GPT2的生成模型:采用预训练的backward...DialoGPT的作者认为,最大化反馈模型概率惩罚了那些"温和"的回复,这是由于频繁的和重复的回复可以与许多可能context关联,因此得到的概率都比较低。...(DialoGPT和Meena的实验表示在预训练模型上继续训练比从头开始训练的要效果更好)。

1.2K33
领券