前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >资源 | MIT自然语言处理数据集和语料库集合

资源 | MIT自然语言处理数据集和语料库集合

作者头像
机器之心
发布2018-05-07 11:34:43
1.1K0
发布2018-05-07 11:34:43
举报
文章被收录于专栏:机器之心

选自Github

作者:Karthik Narasimhan等

机器之心编译

参与:李泽南

最近,麻省理工学院(MIT)的在读博士 Karthik Narasimhan 发起了一个为自然语言处理(NLP)准备的数据集/语料库列表,以时间顺序排列。该列表将持续更新。

项目地址:https://github.com/karthikncode/nlp-datasets

范围

  • 问答系统
  • 对话系统
  • 面向目标的对话系统

问答系统

MS MARCO:人工生成的机器阅读理解数据集,来自微软,2016。

论文:https://arxiv.org/abs/1611.09268

数据:http://www.msmarco.org/

NewsQA:Maluuba 的机器理解数据集,2016。

论文:https://arxiv.org/abs/1611.09830

数据:https://github.com/Maluuba/newsqa

SQuAD:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016。

论文:https://arxiv.org/abs/1606.05250

数据:https://rajpurkar.github.io/SQuAD-explorer/

GraphQuestions:一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016。

论文:http://suo.im/4u7oFE

数据:https://github.com/ysu1989/GraphQuestions

Story Cloze:一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016。

论文:https://arxiv.org/abs/1604.01696

数据:http://cs.rochester.edu/nlp/rocstories/

Children's Book Test:金发女孩原则(当给定样品的一些属性可以从一个极端到另一个极端(例如从极冷至极热)的尺度分布时,一些数据将落在这些极端之间): 以内存显式方式表示的儿童图书,2015。

论文:https://arxiv.org/abs/1511.02301

数据:http://cs.rochester.edu/nlp/rocstories/

SimpleQuestions:大量使用记忆网络的简单问答数据,2015。

论文:https://arxiv.org/pdf/1506.02075v1.pdf

数据:http://suo.im/2eiX0O。

WikiQA:一个开放问题与回答的挑战数据集,由微软推出,2015。

论文:http://suo.im/1bqPMh

数据:http://suo.im/3aJVyp

CNN-DailyMail:用于训练机器进行阅读理解任务的数据集,2015。

论文:https://arxiv.org/abs/1506.03340

代码:https://github.com/deepmind/rc-data

数据:http://cs.nyu.edu/~kcho/DMQA/。

QuizBowl:一个神经网络,用于长段回答事实问题,来自马里兰大学,2014。

论文:http://suo.im/2xcBDv

数据:http://suo.im/3O37SP

MCTest:一个用于开放问题机器理解文本的数据集,来自微软,2013。

论文:http://suo.im/VLBOk

数据:http://suo.im/gZDhk

QASent:Jeopardy 模型?一个用于机器问答的准同步语法数据集,2007。

论文:http://suo.im/3mxr3C

数据:http://suo.im/4mrv9H

对话系统

Ubuntu Dialogue Corpus:一个用于非结构化多回路对话系统研究的大型数据集,2015。

论文:https://arxiv.org/abs/1506.08909

数据:http://suo.im/2pbKCC

面向目标的对话系统

Frames:用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016。

论文:http://suo.im/36jcl2

数据:http://datasets.maluuba.com/Frames

DSTC 2 & 3:对话状态跟踪挑战(Dialog State Tracking Challenge)2 和 3,2013。

论文:http://suo.im/2PzSZc

数据:http://camdial.org/~mh521/dstc/

本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯智能对话平台
腾讯智能对话平台(Tencent Bot Platform,TBP)专注于“对话即服务”的愿景,全面开放腾讯对话系统核心技术,为大型企业客户、开发者和生态合作伙伴提供开发平台和机器人中间件能力,实现便捷、低成本构建人机对话体验和高效、多样化赋能行业。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档