前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【PolyAI】【EMNLP 2020 Findings】ConveRT:来自 Transformer 的高效准确的会话表示

【PolyAI】【EMNLP 2020 Findings】ConveRT:来自 Transformer 的高效准确的会话表示

作者头像
小爷毛毛_卓寿杰
发布2022-09-30 14:34:36
2930
发布2022-09-30 14:34:36
举报
文章被收录于专栏:Soul Joy Hub

介绍

论文《ConveRT: Efficient and Accurate Conversational Representations from Transformers》地址:https://arxiv.org/abs/1911.03688

作者在pretrain(Reddit 数据)+fine-tune 的方式的基础上提出了一个更轻量级的预训练回复选择模型 ConveRT,并且模型还可以引入了更多的对话历史信息。另外,模型学习的句子编码可以 transfer 到其他对话任务(eg.意图识别)。

这篇文章是基于目前预训练模型参数量过大,训练和运行都消耗巨大的计算资源,导致其实际应用受阻的问题提出的。在现实应用场景中,我们需要一个“更小”的模型。ConveRT 是一个轻量级的双编码器预训练结构,它综合利用了多种方式来降低模型的复杂度,包括:子词表示(subword representation)、单头注意力机制(single-headed attention)、量化感知训练(quantization-aware training)等,该模型与其他模型相比,参数更少、训练时间更短、且具有更好的性能,如下表所示:

在这里插入图片描述
在这里插入图片描述

模型架构

单轮对话结构

在这里插入图片描述
在这里插入图片描述
  • 其中Transformer Layers网络是共享的。
  • 双塔的结构,response可以预先计算好表示。在推测时,只用进行一次input部分,得出表示
h_x

。然后和候选的各个

h_y

进行点积,大大加快推测速度。

  • input部分的输出可以接意图识别、实体识别,进行多任务。
  • 目标函数为最大化正样本对分数,最小化负样本对分数:
在这里插入图片描述
在这里插入图片描述

多轮对话结构

在这里插入图片描述
在这里插入图片描述
  • 同样的,response可以预先计算好表示。而且。历史计算过的input表示可以保存下来,用于后续对话。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 模型架构
    • 单轮对话结构
      • 多轮对话结构
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档