学界|如何捕捉冗长讨论里的目标信息?谷歌推出最大标注数据集

AI科技评论按:很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

信息爆炸时代,如何在浩瀚如海的网络中找到自己的需求?谷歌研究团队推出了 Coarse Discourse 数据集,可以将一段文字中“废话”剔除,精准识别用户所需要的目标信息。作为一名雷锋网编辑,信息搜集和分类是日常工作中极为耗时的一件事。谷歌推出的新方法能否解决这一问题?

每一天,社区中的活跃者都在发送和分享他们的意见,经验,建议以及来社交,其中大部分是自由表达,没有太多的约束。这些网上讨论的往往是许多重要的主题下的关键信息资源,如养育,健身,旅游等等。不过,这些讨论中往往还夹杂着乱七八糟的分歧,幽默,争论和铺垫,要求读者在寻找他们要的信息之前先过滤内容。信息检索领域正在积极探索可以让用户能够更有效地找到,浏览内容的方式,在论坛讨论缺乏共享的数据集可以帮助更好地理解这些讨论。

在这个空间中为了帮助研究人员,谷歌发布了 Coarse Discourse dataset,是最大的有注释的数据集。 Coarse Discourse dataset包含超过10万条人可在线讨论的公开注解,这些是从reddit.com网站中的130个社区,超过9000个主题中随机抽取的。

为了创建这个数据集,我们通过一小部分的论坛线程开发了论坛注解的话语分类系统。通俗的说就是阅读每一个评论,并判断评论在讨论中扮演什么角色。我们用众包的人工编辑再重复和修正这种练习来验证话语类型分类的重现性,包括:公告,问题,答案,协议,分歧,阐述和幽默。从这个数据,超过10万条的评论由众包编辑单独注释其话语类型和关系。连同众包编辑的原注释,我们还提供标注任务指南,供编辑们使用帮助他们从其他论坛收集数据和对任务进一步细化。

图中为用话语类型和关系来注释的示例线程。早期的研究结果表明,问和答模式在大多数社区是一个突出的运用,有的社区会话更集中,来回的相互作用。

论文摘要

在这项工作中,我们提出了一种新的方法将在线讨论中的评论分类成一些粗糙语料,是为了在一定规模上更好理解讨论这个目标的实现。为了促进这项研究,我们设计了一个粗糙语料的分类,旨在围绕一般在线讨论,并允许工作人员简单注释。使用我们的语料库,我们演示了如何分析话语行为,可以描述不同类型的讨论,包括话语序列,如问答配对,分歧链,以及不同的社区中的表现。

最后,我们进行实验,使用我们的语料库预测话语行为,发现结构化预测模型,如在条件随机场合下可以实现F1得分75%。我们还演示了如何扩大话语行为,从单一的问和答到更丰富的类别。可以提高Q&A抽取的召回性能。

实验结论

团队使用了一种新的话语行为的分类,我们推出一个从Reddit上数千个社区采样,最大的人工标注的数据集的讨论,在每个线程上的每个评论根据话语行为和关系注释。从我们的数据集,我们观察到常见的话语序列模式,包括问答和参数,并使用这些信号来表征社区。最后,我们用结构化CRF模型进行了分类的话语行为实验,实现了75% F1得分。此外,我们演示了如何使用我们的9个话语行为在只标签了问题和答案的模型,整体提高Q&A抽取的召回性能。

对于机器学习和自然语言处理的研究人员试图描述在线讨论的性质,我们希望这个数据集是一个有用的资源。可以访问我们的GitHub库下载数据。更多细节,请查看论文 ICWSM,“Characterizing Online Discussion Using Coarse Discourse Sequences.

via Google

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

开源 | 谷歌发布 Coarse Discourse:迄今为止最大的在线讨论标注数据集

选自Google Research Blog 作者:Praveen Paritosh等 机器之心编译 参与:蒋思源 近日,谷歌官方研究博客发布了一个开源数据集,...

2799
来自专栏人工智能头条

AI大行其道,你准备好了吗?仅送给徘徊于转行AI的程序员

762
来自专栏新智元

【遗失的秘钥】贝叶斯定理:人工智能的进化论?

贝叶斯定理正在变得如此流行,以至于在CBS剧《生活大爆炸》中也出现了它的身影。纽约时报说,贝叶斯统计学家“遍布一切,从物理学到癌症研究,从生态学到心理学”。物理...

2958
来自专栏AI科技评论

学界 | 顶会见闻系列:ICLR 2018 和 ICLRA 2018

Alex Irpan 本科毕业于 UC 伯克利大学的计算机科学专业,在伯克利人工智能 AI 研究所(BAIR)做的本科毕业设计,导师为 Pieter Abbee...

843
来自专栏新智元

谷歌大脑工程师给2018学术顶会划重点:对抗性学习+强化学习

1273
来自专栏量子位

Top10机器学习开源项目发布,历时一个月评出 | 附GitHub地址

从将近250个机器学习开源项目中,综合各种条件进行打分排序,最终Mybridge团队评选出十大最新、最棒的机器学习开源项目。 这份Top10名单中包括对象检测、...

3328
来自专栏大数据文摘

Y Combinator创始人:深度学习值得被炒作的十个原因

1272
来自专栏AI科技大本营的专栏

Google Brain去年干了太多事,Jeff Dean一篇长文都没回顾完

编译 | AI科技大本营(rgznai100) 参与 | Reason_W 从AutoML、机器学习新算法、底层计算、对抗性攻击、模型应用与底层理解,到开源数据...

3408
来自专栏新智元

Science:研究发现人脑新记忆形式,有助于解释学习机制与大脑原理

【新智元导读】 12月1日,Science 杂志上发表的文章介绍了一个关于大脑记忆的研究的新发型。研究团队展示了在工作记忆和长期记忆转换的中间状态中,记忆是能够...

3408
来自专栏CSDN技术头条

【BDTC 2015】深度学习分论坛:DL的图像识别、语音识别应用进展

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

1829

扫码关注云+社区