学界|如何捕捉冗长讨论里的目标信息?谷歌推出最大标注数据集

AI科技评论按:很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

信息爆炸时代,如何在浩瀚如海的网络中找到自己的需求?谷歌研究团队推出了 Coarse Discourse 数据集,可以将一段文字中“废话”剔除,精准识别用户所需要的目标信息。作为一名雷锋网编辑,信息搜集和分类是日常工作中极为耗时的一件事。谷歌推出的新方法能否解决这一问题?

每一天,社区中的活跃者都在发送和分享他们的意见,经验,建议以及来社交,其中大部分是自由表达,没有太多的约束。这些网上讨论的往往是许多重要的主题下的关键信息资源,如养育,健身,旅游等等。不过,这些讨论中往往还夹杂着乱七八糟的分歧,幽默,争论和铺垫,要求读者在寻找他们要的信息之前先过滤内容。信息检索领域正在积极探索可以让用户能够更有效地找到,浏览内容的方式,在论坛讨论缺乏共享的数据集可以帮助更好地理解这些讨论。

在这个空间中为了帮助研究人员,谷歌发布了 Coarse Discourse dataset,是最大的有注释的数据集。 Coarse Discourse dataset包含超过10万条人可在线讨论的公开注解,这些是从reddit.com网站中的130个社区,超过9000个主题中随机抽取的。

为了创建这个数据集,我们通过一小部分的论坛线程开发了论坛注解的话语分类系统。通俗的说就是阅读每一个评论,并判断评论在讨论中扮演什么角色。我们用众包的人工编辑再重复和修正这种练习来验证话语类型分类的重现性,包括:公告,问题,答案,协议,分歧,阐述和幽默。从这个数据,超过10万条的评论由众包编辑单独注释其话语类型和关系。连同众包编辑的原注释,我们还提供标注任务指南,供编辑们使用帮助他们从其他论坛收集数据和对任务进一步细化。

图中为用话语类型和关系来注释的示例线程。早期的研究结果表明,问和答模式在大多数社区是一个突出的运用,有的社区会话更集中,来回的相互作用。

论文摘要

在这项工作中,我们提出了一种新的方法将在线讨论中的评论分类成一些粗糙语料,是为了在一定规模上更好理解讨论这个目标的实现。为了促进这项研究,我们设计了一个粗糙语料的分类,旨在围绕一般在线讨论,并允许工作人员简单注释。使用我们的语料库,我们演示了如何分析话语行为,可以描述不同类型的讨论,包括话语序列,如问答配对,分歧链,以及不同的社区中的表现。

最后,我们进行实验,使用我们的语料库预测话语行为,发现结构化预测模型,如在条件随机场合下可以实现F1得分75%。我们还演示了如何扩大话语行为,从单一的问和答到更丰富的类别。可以提高Q&A抽取的召回性能。

实验结论

团队使用了一种新的话语行为的分类,我们推出一个从Reddit上数千个社区采样,最大的人工标注的数据集的讨论,在每个线程上的每个评论根据话语行为和关系注释。从我们的数据集,我们观察到常见的话语序列模式,包括问答和参数,并使用这些信号来表征社区。最后,我们用结构化CRF模型进行了分类的话语行为实验,实现了75% F1得分。此外,我们演示了如何使用我们的9个话语行为在只标签了问题和答案的模型,整体提高Q&A抽取的召回性能。

对于机器学习和自然语言处理的研究人员试图描述在线讨论的性质,我们希望这个数据集是一个有用的资源。可以访问我们的GitHub库下载数据。更多细节,请查看论文 ICWSM,“Characterizing Online Discussion Using Coarse Discourse Sequences.

via Google

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

Python NLP库top6的介绍和比较

自然语言处理(NLP)在今天已经变得越来越流行,尤其是在深度学习迅猛发展的大背景下变得更加引人注目。NLP属于人工智能的一个领域,旨在理解文本和从中提取重要信息...

782
来自专栏CDA数据分析师

想学习数据科学?我们整理了一份优质编程入门课程清单

原作者 David Venturi 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 一年以前,我还只是一个没有任何编程经验的电...

22410
来自专栏程序你好

开源项目ELMo:机器学习在自动翻译中的应用

1034
来自专栏小樱的经验随笔

浅谈强化学习的方法及学习路线

介绍 目前,对于全球科学家而言,“如何去学习一种新技能”成为了一个最基本的研究问题。为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以...

3619
来自专栏AI研习社

一窥谷歌神经机器翻译模型的真面貌,其底层框架终于开源!

去年,谷歌发布了 Google Neural Machine Translation (GNMT),即谷歌神经机器翻译,一个 sequence-to-seque...

3379
来自专栏PPV课数据科学社区

从零实现来理解机器学习算法:书籍推荐及障碍的克服

【编者按】并非所有的开发者都有机器学习算法的基础知识,那么开发者如何从零入门来学习好机器学习算法呢?本文总结推荐了一些从零开始学习机器学习算法的办法,包括推荐了...

3145
来自专栏MixLab科技+设计实验室

你该掌握的AI技能:强化学习01

题图由人工智能设计师完成 最近在看一些强化学习的书籍,学习的过程就是要不断的输入,查找资料,理解各种资料,然后输出,总结学习心得,再次输入,输出。不断的重复输入...

2676
来自专栏量子位

纽约大学的好奇AI特别会提问,桌游玩得比人还666

李林 编译自 TechnologyReview 量子位 出品 | 公众号 QbitAI 纽约大学的科学家们开发了一个非常“好奇”的人工智能系统,桌游玩得相当不错...

2964
来自专栏Pytorch实践

机器是如何做阅读理解的?

机器阅读理解 斯坦福有个很重要的比赛,就是让机器完成阅读理解题目,即给定一篇文章,让机器理解文章含义进行题目回复。每年这一比赛都是国际性的,引来了业界、学术界的...

3417
来自专栏机器之心

专栏 | 李航教授展望自然语言对话领域:现状与未来

语音助手、智能客服、智能音箱、聊天机器人,近年各种自然语言对话系统如雨后春笋般地涌现,有让人眼花缭乱的感觉。一方面对话系统越来越实用化,另一方面当前技术的局限性...

880

扫描关注云+社区