前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何在tweet上识别不实消息(一)

如何在tweet上识别不实消息(一)

作者头像
哒呵呵
发布2018-08-06 17:48:21
1.1K0
发布2018-08-06 17:48:21
举报
文章被收录于专栏:鸿的学习笔记

摘要:

谣言通常被定义为其真实价值不可核实的状态。谣言可能传播错误信息(false infor-

mation)或虚假信息(deliberately false information)给网络上的人。在网络社交媒体识别谣言至关重要,其中大量的信息可以很轻易得藉由一个未经验证的权威作为源头广泛传播到网络上。在本文,我们涉及了微博中谣言检测的问题并探讨3类有效特征:基于内容,基于网络和微博特定模块谣言。此外,我们将展示这些特征如何有效地识别不实信息者,认可谣言并帮助其传播的用户。我们从Twitter人工收集了上万条tweet并且我们的检索模型如何实现0.95的平均精度(MAP)。最后,我们相信我们的数据集是第一个基于谣言检测的大规模数据集。它在分析在线不实信息等方面的微博记录中打开了新的维度。

1.导论

在我们的方法中,我们解决了两个基本问题。第一个问题涉及谣言相关的在线微博。第二个问题是我们尝试识别支持谣言的tweets(发送者表示他们相信谣言)。

2.相关工作

分析谣言,挖掘tweet,情感分析以及主体性检验。

3.问题定义

假设我们有一组关于同一主题并有一些争议性的tweet。我们在这项工作的目标是双重的:(1)提取一个故事有争议性部分和传播不实信息的tweet(Rumor retrieval)。(2.2)识别相信错误信息的用户与反驳或质疑谣言的用户(Belief classification)。

以下两个tweets是关于奥巴马总统和穆斯林世界的微博实例。下面的第一个tweet是关于总统奥巴马和穆斯林世界,第二个tweet传播奥巴马总统是穆斯林的错误信息。

检索任务的目标是区分这样的tweets。在第二个任务,我们使用被标记为谣言的tweet和识别用户赞同(相信)传闻与否认或质疑它的用户。以下三个tweets都是同一个故事。第一个用户是一个信徒,第二个和第三个不是。

第一个任务比标准IR任务更具挑战性,因为同时兼有高精度(每个结果应该确实在讨论谣言)和高查全率(数据集应该完整)。为此,我们提交了一个手工制作的regexp(从about.com提取)到Twitter,并且搜索到一个大的原始的应该具有高查全率的tweets集。但是,这个集合包含很多的假阳性,匹配regexp的tweet,但是不是有关的谣言(例如,“奥巴马遇见穆斯林领导”)。此外,谣言通常使用各种实例(例如,“Barack HUSSEIN Obama”与“奥巴马是穆斯林”)。我们的目标是设计一个可以过滤所有这种假阳性和检索相同的各种谣言的例子的学习框架。

虽然我们的第二个任务,belief classification,可以看作是一个意见挖掘任务,但是在本质上与意见挖掘截然不同。与标准意见挖掘任务的区别是在这里我们寻找的是关于态度的一个简单语句(例如,“Palinis is getting divorce”)文本而不是整体情绪朝向明确的对象或人的意见(例如,“SarahPalin”)

4.数据

我们在这项工作的目标是收集和注释一个包含所有在一段时间内谣言的tweet的大数据集。对于收集这样一个完整和包含关于谣言的数据集,我们使用Twitter搜索API和检索匹配给定规则的所有tweets。此API是唯一的API,可以返回整个公众的Twitter流和不小的随机选择的样本。为了克服Twitter的强制执行的速率限制,我们每小时一次收集一次匹配的tweets,并删除任何重复。

为了使用搜索API,我们仔细设计正则表达式查询使得足够广泛的匹配关于谣言的所有tweets。每个查询代表在09年和10年之间被About.com’s Urban Legends reference site列为“假”或者只有“部分真实”的一个流行的谣言。表1列出了我们用来收集我们的谣言样本的数据集及其对应的正则表达式查询和收集的tweets数量。

4.1注释

我们要求两个注释器去处理所有在数据集的tweets,并标记如果它是关于表1中的任何谣言的tweet为“1”,否则为“0”。这个注释方案将在我们的第一个任务中用来检测假阳性,匹配正则表达式,但经检测不是关于谣言的tweet。例如,以下两个tweets都匹配正则表达式,但只有第二个是谣言。

我们还要求注释器用“11”注释每一个之前已被注释的谣言,如果发送者赞同谣言的话和如果用户驳斥谣言,质疑其可信度或者中性,则标记为“12”。

超过10,400条tweets中的注释显示所有样本的35%匹配的正则表达式是假阳性,tweets不与谣言相关,但匹配初始查询。此外,在tweets之间,关于特定的谣言,几乎43%显示发送者相信谣言,这证明了识别不实信息和被误导人的重要性。表2显示从注释中提取的每个故事的基本统计信息。

4.2内部评判协议

为了计算注释精度,我们注释了500个实例两次。这些注释是彼此相互对比的,Kappa系数(κ)可计算。κ计算公式为

表3显示注释器可以到达提取谣言(κ=0.95)和识别相信者(κ= 0.85)的高度一致。

5.方法

在本节中,我们描述一个通用框架,只要给出一条tweet,预测(1):它是否是一个谣言相关状态,如果是这样(2):用户是否相信谣言。我们描述3个特征集,并解释为什么这些可以直观的使用于识别谣言。

我们处理了在用户中出现的tweets时间线,并且不做任何预处理。特别地,我们认为错误可能是一个重要财产。所以,我们也不小写tweet文本。

我们的方法是建立基于不同的贝叶斯分类器作为高层次特征,然后学习这些分类器的线性函数用于检索第一个任务和第二个任务的分类。每个贝叶斯分类器,对应一个特征,计算给定tweet的似然比t,如等式1所示。

是两个基于特征使用一系列正(+)和负(-)训练集的概率模型。似然比表达了tweet t 是相对于在正模型下比负模型多多少次的可能性。

出于计算的原因和避免处理非常小的数字,我们使用的似然比的对数去构建每个分类器。

第一个术语可以很容易地计算使用所述概率密度函数的最大似然估计(即每个概率的估计是相应的相对频率)。第二个术语是使用我们下面解释多特征计算。

5.1基于文本的特征

第一组特征是从tweet文本中提取的。我们提出了4个基于内容的特征。我们遵循(Hassan等人,2010)并呈现2种不同的模式的tweet:

词汇模式:tweet中所有的单词和段落表示他们出现和使用空格字符进行标记。

词性模式:所有单词替换成他们的词类标签。为了找到标签的词性,我们将其视为一个词(因为他们可以在句子中的语法角色),通过省略标记符号,然后在标记前加上标签TAG/。我们也引入一个新的标签URL,用于显示tweet的网址。

从每个tweet,我们提取4(2×2)个特征,对应于每个表示。每个特征是使用公式2计算计算的似然比对数。更正式地,我们表示每个tweet t,长度n,词法(w1,w2...wn)和部分词性标签(p1,p2...pn)并建立正反模型(,)对于训练集里每个特征,我们计算等式2中所定义的似然比

对于单语言特征TXT1

对于基于双字的词法特征TXT2

类似地,我们定义单向和双向语义特征(POS1)和(POS2)为语义模型的似然比对数。

5.2基于网络的特征

我们提出的特征到目前为止都是基于个人tweet的内容。在第二组特征我们专注于tweet上的用户行为。我们观察了4种类型的基于网络的性能,并建立2种捕获他们的特征。

Twitter使用户可以重新发送消息给其他人。这种交互通常容易检测,因为转发的消息通常开始具体模式为:RT @user。我们使用这个属性来推断重新发送的消息。

让我们假设一个用户ui从用户uj(ui:”RT @ujt”)转发tweet t。显然,t是更可能是谣言如果(1)uj有发布或重新传播谣言的历史,或(2)ui在过去的历史已发布或重新发布tweet的谣言。

给定一组训练实例,我们构建一个用户模型。第一个模型是已发布积极的实例或重新发布积极实例的所有用户的概率分布。类似地,第二模型是针对已经发布(或者重新发送)为否定的用户的概率分布实例。在建立模型后,对于给定tweet。我们计算了两个对数似然比为2种基于网络的特征。

第一个特征是对数似然比ui是处于正用户模型(USR1),第二个特征是tweet的对数似然比是从用户重新tweet(uj)处于正的用户模型与负用户模型比(USR2)。

发布用户和重新推特的用户的区别很重要,因为有些时候用户以某种方式修改重新发送的消息改变了其意义和意图。在下面的例子中,原来的用户引用奥巴马总统。第二个用户正在重新推送第一个用户的tweet,但已经添加更多的内容到tweet,并使其成为谣言。

5.3 tweet的具体内容

我们的最终的特征集是从特定Twitter中提取额内容:主题标签hashtags和网址urls。

5.3.1主题标签

在Twitter生态系统中一个新出现的现象是使用hashtag:某个词或短语前缀有散列符号(#)。由用户创建这些标签,并广泛使用了几天,然后当主题过时时消失。

在我们的方法里,我们调查用于谣言相关的tweets的hash tags与其他tweet是否有什么不同。此外,我们检查人们相信和传播谣言时所使用的标签是否是从那些已看见的否认或质疑谣言tweets来的。

给定一组正向和负向的训练tweet样本,我们构建两个统计模型(,),每个展示了使用各种主题标签的概率分布。对于给定的tweet t,有一套的m标签(#H1...#Hm),我们使用等式2计算其对数似然比。

---未完待续

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档