前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【RASA】TED Policy:Dialogue Transformers

【RASA】TED Policy:Dialogue Transformers

作者头像
小爷毛毛_卓寿杰
发布2021-12-17 16:31:00
8940
发布2021-12-17 16:31:00
举报
文章被收录于专栏:Soul Joy Hub

最近工作中使用到rasa,其core部分有一个rasa自己提出的TED Policy框架组建,可用于进行对话决策。今天有空,就来研究下它~

论文《Dialogue Transformers》地址:https://arxiv.org/abs/1910.00486

让我们整体的看一下当 TED Policy从输入到输出进行预测时会发生什么。

在每个对话回合,TED Policy将三条信息作为输入:用户的消息、预测的先前系统动作以及作为插槽保存到助手内存中的任何值。这些中的每一个都在输入到transformer之前进行了特征化和连接。

这就是自注意力机制发挥作用的地方:transformer 在每一轮动态访问对话历史的不同部分,然后评估和重新计算前几轮的相关性。这允许 TED Policy一次考虑用户话语,但在另一轮完全忽略它,这使得transformer 成为处理对话历史的有用架构。

接下来,将dense layer应用于transformer的输出以获得用于近似文本含义的嵌入数值特征,用于对话上下文和系统动作。计算嵌入之间的差异,TED Policy最大化与目标标签的相似性并最小化与错误标签的相似性,这是一种基于Starspace算法的技术。这种比较嵌入之间相似性的过程类似于Rasa NLU pipeline中的EmbeddingIntentClassifier预测意图分类的方式。

当需要预测下一个系统动作时,所有可能的系统动作根据它们的相似度进行排序,并选择相似度最高的动作。

这个过程在每个对话回合中重复,如下所示:

在这里插入图片描述
在这里插入图片描述

效果:

在这里插入图片描述
在这里插入图片描述

在极低数据情况下,REDP 优于 TED Policy。应该注意的是,REDP 严重依赖其复制机制来预测非合作题外话后先前提出的问题。然而,TED Policy既简单又通用,在不依赖于重复问题等对话属性的情况下实现了类似的性能。此外,由于transformer架构,TED 政策训练比 REDP 更快,并且需要更少的训练周期来达到相同的精度。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/12/16 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档