学界|如何捕捉冗长讨论里的目标信息?谷歌推出最大标注数据集

AI科技评论按:很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

信息爆炸时代,如何在浩瀚如海的网络中找到自己的需求?谷歌研究团队推出了 Coarse Discourse 数据集,可以将一段文字中“废话”剔除,精准识别用户所需要的目标信息。作为一名雷锋网编辑,信息搜集和分类是日常工作中极为耗时的一件事。谷歌推出的新方法能否解决这一问题?

每一天,社区中的活跃者都在发送和分享他们的意见,经验,建议以及来社交,其中大部分是自由表达,没有太多的约束。这些网上讨论的往往是许多重要的主题下的关键信息资源,如养育,健身,旅游等等。不过,这些讨论中往往还夹杂着乱七八糟的分歧,幽默,争论和铺垫,要求读者在寻找他们要的信息之前先过滤内容。信息检索领域正在积极探索可以让用户能够更有效地找到,浏览内容的方式,在论坛讨论缺乏共享的数据集可以帮助更好地理解这些讨论。

在这个空间中为了帮助研究人员,谷歌发布了 Coarse Discourse dataset,是最大的有注释的数据集。 Coarse Discourse dataset包含超过10万条人可在线讨论的公开注解,这些是从reddit.com网站中的130个社区,超过9000个主题中随机抽取的。

为了创建这个数据集,我们通过一小部分的论坛线程开发了论坛注解的话语分类系统。通俗的说就是阅读每一个评论,并判断评论在讨论中扮演什么角色。我们用众包的人工编辑再重复和修正这种练习来验证话语类型分类的重现性,包括:公告,问题,答案,协议,分歧,阐述和幽默。从这个数据,超过10万条的评论由众包编辑单独注释其话语类型和关系。连同众包编辑的原注释,我们还提供标注任务指南,供编辑们使用帮助他们从其他论坛收集数据和对任务进一步细化。

图中为用话语类型和关系来注释的示例线程。早期的研究结果表明,问和答模式在大多数社区是一个突出的运用,有的社区会话更集中,来回的相互作用。

论文摘要

在这项工作中,我们提出了一种新的方法将在线讨论中的评论分类成一些粗糙语料,是为了在一定规模上更好理解讨论这个目标的实现。为了促进这项研究,我们设计了一个粗糙语料的分类,旨在围绕一般在线讨论,并允许工作人员简单注释。使用我们的语料库,我们演示了如何分析话语行为,可以描述不同类型的讨论,包括话语序列,如问答配对,分歧链,以及不同的社区中的表现。

最后,我们进行实验,使用我们的语料库预测话语行为,发现结构化预测模型,如在条件随机场合下可以实现F1得分75%。我们还演示了如何扩大话语行为,从单一的问和答到更丰富的类别。可以提高Q&A抽取的召回性能。

实验结论

团队使用了一种新的话语行为的分类,我们推出一个从Reddit上数千个社区采样,最大的人工标注的数据集的讨论,在每个线程上的每个评论根据话语行为和关系注释。从我们的数据集,我们观察到常见的话语序列模式,包括问答和参数,并使用这些信号来表征社区。最后,我们用结构化CRF模型进行了分类的话语行为实验,实现了75% F1得分。此外,我们演示了如何使用我们的9个话语行为在只标签了问题和答案的模型,整体提高Q&A抽取的召回性能。

对于机器学习和自然语言处理的研究人员试图描述在线讨论的性质,我们希望这个数据集是一个有用的资源。可以访问我们的GitHub库下载数据。更多细节,请查看论文 ICWSM,“Characterizing Online Discussion Using Coarse Discourse Sequences.

via Google

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

马库斯:DeepMind新出的机器心智网络不错,但有误导性

原作 Gary Marcus Root 编译 量子位 报道 | 公众号 QbitAI DeepMind最新出的论文Machine Theory of Mind还...

3626
来自专栏机器人网

仿人机器人的视觉伺服控制系统

 视觉是人类感知外界信息的重要手段,视觉伺服系统是机器人获取环境信息的关键组成部分。本文主要讨论仿人机器人BHR-1的视觉伺服系统。首先介绍机器人头部的视觉总体...

1373
来自专栏ATYUN订阅号

NVIDIA开发强化学习算法,同时训练数千个机器人

近年来,无模型深度强化学习算法已经产生了突破性的成果。然而,当前的算法需要大量的训练样本以及大量的计算能力来实现期望的结果。为了使训练更容易,NVIDIA的一组...

962
来自专栏AI科技大本营的专栏

回顾2016深度学习十大框架

我喜欢参加在西班牙马德里举办的机器学习见面会,也算是西班牙马德里TensorFlow小组和机器学习(Machine Learning)小组的常客,在自动无人驾驶...

37811
来自专栏人人都是极客

嵌入式机器学习处理器的技术挑战和机会

2016年12月,Vivienne Sze,Yu-Hsin Chen等(Eyeriss的作者)在arXiv上发表的文章“Hardware for Machine...

3908
来自专栏大数据文摘

学习AI可能不需要那么多数学知识:20小时进阶计划

2035
来自专栏AI科技评论

干货 | 这些关于 TensorFlow 问题的解答,你不能错过

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课, www.m...

3065
来自专栏新智元

【我不再使用TensorFlow的5大原因】谷歌最受欢迎深度学习框架日渐式微?

【新智元导读】一篇叫做“TensorFlow Sucks”的文章火了。上线不到两年便成为Github最受欢迎深度学习项目,谷歌开源深度学习框架TensorFlo...

4007
来自专栏杨熹的专栏

强化学习第4课:这些都可以抽象为一个决策过程

这个过程有两步,首先你的代理会观察环境的一些特质,有时是传感器感知到的,有些是输入的用户特征。 然后代理会选择一个行为,将这个行为反馈给环境。 之后代理不仅...

731
来自专栏ATYUN订阅号

Berkeley共享自主研究:人-机组合应用model-free RL,优化无人机实时辅助控制

想象这样一个场景,无人机驾驶员远程操控一架四旋翼飞行器,用机载摄像头进行导航和着陆。不熟练的飞行动态、陌生的地形和网络延迟都会影响这个系统,使得人很难对其进行控...

985

扫码关注云+社区