斯坦福公布任务导向型多领域多轮对话数据集

安妮 编译自 斯坦福NLP小组官方博客 量子位出品 | 公众号 QbitAI

任务导向型对话侧重于参与用户发起的特定话题的对话。一般来说,如果做任务导向型对话的程序员训练模型数据集不够大且不够多样,那么接下来的工作很有可能受阻。

为了帮助缓解这个问题,斯坦福自然语言处理小组公布了一组语料库。这组数据集包含了3031条多轮对话数据,内容主要分布在日程安排、天气信息检索和兴趣点导航。

这个对话集是通过知识库建立的,确保系统对自然语言处理得灵活流利。数据集与人类的对话差不多是下面的画风——

在这个数据集中,用户有两种可能的模式:驾驶员模式和助手模式。

在驾驶员模式中,用户会收到一份包含了明确信息的任务,里面列出了他们试图从助手中提取的某些信息,以及驾驶员和助手之间的历史对话。驾驶员只负责提供一组对话,并根据之前的历史对话消息和指定任务将对话进行下去。这些任务是通过3到5个可选值(比如时间、日期、地点等)随机指定的。

驾驶员模式示意图

在助手模式中,用户能看到一份聊天记录,刚好进行到司机提了个问题;同时,还会看到助手专属的知识库,包含回答司机问题所需要的信息,比如事件信息日历、附近城市的预测信息和收集到的附近相关信息点。

助手模式示意图

数据集中的数据大致可以分为以下几类:

每个领域slots的类型和数量统计如下:

最后,附数据公开下载地址:

http://nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip

Paper地址:

https://arxiv.org/abs/1705.05414

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

应用LabVIEW和CompactRIO开发腿轮混合式移动机器人

"对于移动机器人的开发来说,其大小,重量及性能都非常重要,因此坚固的模块化CompactRIO系统非常适合用于开发。 LabVIEW和NI硬件之间定义良好的兼容...

3706
来自专栏程序员互动联盟

程序员该如何学习数据结构与算法?

一个成熟的程序员数据结构和算法属于基本必备素质,很多程序员觉得算法距离自己有点距离,正常情况下算法不是渗透到每个角落。但程序的执行效率散布在每个角落。所以学习数...

921
来自专栏玉树芝兰

如何高效学Python?

如果你一直想学Python,但是不知道如何入手,那就别犹豫了。这篇文章就是为你写的。

2152
来自专栏PPV课数据科学社区

【职业】产品数据分析到底该怎么做?一则小故事为你启发

数据行业 网上有个故事很有趣,说3个人去投宿,一晚30元.三个人每人掏了10元凑够30元交给了老板. 後来老板说今天优惠只要25元就够了,拿出5元命令服务生退还...

3123
来自专栏喔家ArchiSelf

雾里看花——IIoT

工业物联网(IIoT)正在从概念逐渐变成现实。廉价传感器, 从数据到云端, 以及在浏览器上的仪表盘可以看到更细致和更现实的模型,仿若无处不在。 一些文章通过对雾...

932
来自专栏凌帅的阅读思考与实践

OKR和凌帅的OKR

OKR是所有目标管理、时间管理、精力管理、任务管理、甚至员工管理、组织管理、公司管理、社区管理、家庭管理、国家管理的集大成者,终结者,没有之一。只要涉及管理,就...

1022
来自专栏互联网数据官iCDO

请收藏,4种提高电商转化率的文案实用技巧!

译者:池金锐 审校:朱玉雪 本文长度为3699字,预估阅读时间10分钟。 摘要:本篇文章主要阐述了文案和会话率之间的巧妙关系及介绍了四种实用的方法提高电商的转...

3477
来自专栏北京马哥教育

故障管理工作方法和技巧分享

做故障管理这么久,对怎样才能做好这个工作有一些切身感受,除去一些只可意会不可言传的部分,这次我把能想到的工作技巧都总结出来了。 由于这个岗位不是互联网公司6大...

3195
来自专栏理论坞

互联网术语大全(二)

Adsens:Google AdSense 是一种获取收入的快速简便的方法,适合于各种规模的网站发布商。它可以在网站的内容网页上展示相关性较高的 Google广...

982
来自专栏华章科技

为不擅长编程的人准备的19个数据科学工具

编程是数据科学的重要组成部分。在所有方面中,一般认为一个理解编程逻辑、循环、功能的大脑更有可能成为一个成功的数据科学家。那么,一个从来没有在学校或学院里学过编程...

972

扫码关注云+社区

领取腾讯云代金券