清华 ACL 2020 长文：多智能体对话策略学习

文章来源：企鹅号 - AI科技评论

五一结束，系列直播再次开启！

近年来，许多研究已经应用强化学习来训练对话策略并显示出巨大的希望。一种常见的方法是采用用户模拟器来获得大量的模拟用户体验，以满足强化学习算法在对话策略中的训练。

但，建模一个逼真的用户模拟器是具有挑战性的。

基于规则的模拟器需要复杂领域的专业知识，而数据驱动的模拟器则需要大量数据，甚至不清楚如何评估模拟器。

为了避免事先明确地构建用户模拟器，清华大学黄民烈团队（CoAI课题组）在发表于ACL 2020 上的长文《Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition》中提出了多智能体对话策略学习法，该系统将系统和用户都视为对话代理。

两个主体相互交互，并且同时联合学习。该方法使用行为者批判框架来促进预训练并提高可伸缩性。

作者还提出了混合价值网络，用于角色感知奖励分解，以在面向任务的对话中整合每个代理的角色特定的领域知识。

结果表明，该方法可以成功地同时建立系统策略和用户策略，并且两个代理可以通过会话交互获得较高的任务成功率。

论文链接：https://arxiv.org/pdf/2004.03809.pdf

AI 科技评论邀请论文一作高信龙一来给我们详细讲解其研究过程及细节。

主题：多智能体对话策略学习

主讲人：高信龙一

清华大学计算机系2019级硕士生，交互式人工智能组（CoAI）成员，师从黄民烈教授。主要研究方向为对话系统、推荐系统与强化学习。已在ACL、EMNLP、WWW等顶级会议上发表数篇论文。

时间：2020年5月6日（周三）晚20:00整

分享提纲：

1．对话策略学习的任务背景

2．对话策略研究的最新进展与挑战

3．基于多智能体强化学习的对话策略学习与奖励分解

更多直播：

ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行，因新冠肺炎疫情改为线上会议。为促进学术交流，方便国内师生提早了解自然语言处理（NLP）前沿研究，AI 科技评论将推出「ACL 实验室系列论文解读」内容，同时欢迎更多实验室参与分享，敬请期待！

发表于: 2020-05-062020-05-06 19:09:29
原文链接：https://kuaibao.qq.com/s/20200506A0OZ3Z00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

清华 ACL 2020 长文：多智能体对话策略学习

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐