前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >亚马逊将公布超过最大会话和知识数据集,超400万字

亚马逊将公布超过最大会话和知识数据集,超400万字

作者头像
大数据文摘
发布2019-04-26 10:54:54
5240
发布2019-04-26 10:54:54
举报
文章被收录于专栏:大数据文摘

4月1 日, 亚马逊宣布:他们计划向公众公开“Topical Chat”数据集,超410万单词21万句子的语料库将于2019年9月17日发布。

该数据集是为参加Alexa Prize Socialbot Grand Challenge 3竞赛的团队开发的,申请截止日期为2019年5月14日,比赛于2019年9月9日开始。所有参加Alexa Prize竞赛的团队将可以访问此数据集的扩展版本(扩展主题聊天数据集),其中包括正在进行的集合和注释的结果。

主题聊天数据集将包含超过210,000个句子(超过4,100,000个单词),可支持高质量,可重复的研究,将成为研究界公开可用的最大社交对话和知识数据集。

每个语料库的对话和对话轮次与提供给众包工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何语料是与Alexa客户的互动。

该数据库是实现基于知识的神经反应生成系统的后续研究,解决其他公开数据集无法解决的自然对话中的难题。这将使研究者可以专注于研究对话中主题和知识选择方面的转换,以及如何在对话中融入事实和观点。

相关报道:

https://developer.amazon.com/blogs/alexa/post/30dc5515-3b9f-4ec2-8f2a-ac98254625c6/topical-chat-dataset-helps-researchers-address-hard-challenges-in-natural-conversation

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档