前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多轮检索式对话——【WSDM 2019】MRFN

多轮检索式对话——【WSDM 2019】MRFN

作者头像
小爷毛毛_卓寿杰
发布2021-09-10 11:31:45
3500
发布2021-09-10 11:31:45
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub

《Multi-Representation Fusion Network for Multi-turn Response Selection in Retrieval-based Chatbots》

本文的Motivation是建立在最近几年多轮检索式对话基于的面向交互的思想是。回想一下从Multi-view引入交互,到SMN完全基于交互,再到DAM多层交互。交互的粒度越多越work已经是大家的共识了。但如何更好的设计各个粒度之间的层次关系,减少不必要的性能浪费呢?作者提出把粒度划分为word, short-term, long-term三个粒度6种表示:

  • Word
    • character Embedding: 利用字符级别的CNN(n-gram)解决typos/OOV的问题
    • Word2Vec: 这里很简单的用了word2Vec。很显然用ELMo、Bert等会有更好的效果,当然效率上面就不太划算
  • Contextual
    • Sequential: 借用GRU的结构实现句子中间子串信息的获取,RNN能保留短距离词之间的关系
    • Local: 利用CNN获取N-gram的信息,CNN中卷积和池化,相对于获取中心词周围N-gram的信息
  • Attention-based(和DAM一样)
    • self-Attention
    • cross-Attention
在这里插入图片描述
在这里插入图片描述

fusion操作其实就是把这6种representation进线融合,融合方式很简单,就是把6个矩阵连接成1个矩阵。根据fusion操作所在阶段位置的早、中、晚,可分为3个策略:

  • FES
    • 第1到2列,就是在做fusion
    • 第2列3列,做U、R 交互特征,Ti∗​ 矩阵中的的各个向量为:
    在这里插入图片描述
    在这里插入图片描述

    其中:

    在这里插入图片描述
    在这里插入图片描述
    • 后续进行词粒度的GRU得到v,再进行utterance粒度的GRU,最后接MLP预测匹配分数
  • FIE
    • 先做各个representation U、R交互特征,再fusion,之后的和FES一样
  • FLE
    • 先做各个representation U、R交互特征,再做各个representation 词粒度的GRU 、utterance粒度的GRU,然后在MLP最后进行fusion。

实验证明了FLE效果最好:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

思考

首先我们发现utterance越长attention的优势被证明更明显。

其次作者认为结论是Contextual贡献最大,轮次少和很多的时候Contextual比Attention效果更好。个人看实验结果,不觉得能很明显的得出这样的结论。

作者认为,轮次少的时候可能RNN系列性能的确可以和attention相抗衡,轮次多的时候可以理解为当前的回复其实更多与附近的对话相关,与较远的对话关系反而远了,所以对于局部前文信息把握更多的Contextual可能会更好。可是个人理解,类似“对于局部前文信息把握更多”等多轮上下文位置与长度信息是由对v向量输入到GRU后表达出来的,应该与表示层、交互粒度没有太大关系

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-05-02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 思考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档