前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >斯坦福公布任务导向型多领域多轮对话数据集

斯坦福公布任务导向型多领域多轮对话数据集

作者头像
量子位
发布2018-03-29 10:57:38
1.1K0
发布2018-03-29 10:57:38
举报
文章被收录于专栏:量子位量子位
安妮 编译自 斯坦福NLP小组官方博客 量子位出品 | 公众号 QbitAI

任务导向型对话侧重于参与用户发起的特定话题的对话。一般来说,如果做任务导向型对话的程序员训练模型数据集不够大且不够多样,那么接下来的工作很有可能受阻。

为了帮助缓解这个问题,斯坦福自然语言处理小组公布了一组语料库。这组数据集包含了3031条多轮对话数据,内容主要分布在日程安排、天气信息检索和兴趣点导航。

这个对话集是通过知识库建立的,确保系统对自然语言处理得灵活流利。数据集与人类的对话差不多是下面的画风——

在这个数据集中,用户有两种可能的模式:驾驶员模式和助手模式。

在驾驶员模式中,用户会收到一份包含了明确信息的任务,里面列出了他们试图从助手中提取的某些信息,以及驾驶员和助手之间的历史对话。驾驶员只负责提供一组对话,并根据之前的历史对话消息和指定任务将对话进行下去。这些任务是通过3到5个可选值(比如时间、日期、地点等)随机指定的。

驾驶员模式示意图

在助手模式中,用户能看到一份聊天记录,刚好进行到司机提了个问题;同时,还会看到助手专属的知识库,包含回答司机问题所需要的信息,比如事件信息日历、附近城市的预测信息和收集到的附近相关信息点。

助手模式示意图

数据集中的数据大致可以分为以下几类:

每个领域slots的类型和数量统计如下:

最后,附数据公开下载地址:

http://nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip

Paper地址:

https://arxiv.org/abs/1705.05414

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安妮 编译自 斯坦福NLP小组官方博客 量子位出品 | 公众号 QbitAI
    • △ 驾驶员模式示意图
      • △ 助手模式示意图
      相关产品与服务
      NLP 服务
      NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档