Upvote Dynamics on the Quora Network(上)

By Shankar Iyer

Introduction

当一个答案被添加到Quora时,存在着将它分发给跟随作者的人的各种机制。其中最突出的是主页Feed和摘要电子邮件,但也有其他途径,如较新的“您关注的人”电子邮件。通过这些分布渠道之一,作者的直接追随者可以升高答案,将答案传播给二级学位追随者。如果一个或多个第二位的追随者upvote答案,那么它有机会被第三位的追随者等等观看...

然而,这不是可以在Quora用户网络中看到答案的唯一方式。用户还可以查看其Feed或摘要电子邮件中的内容,因为他们正关注相关主题,或者因为他们表示他们想要解答的特定问题。此外,人们可以通过执行搜索,跟随一个或多个相关问题链接,或通过点击在Facebook或Twitter上分享的内容来发现答案。这些机制允许网络中的跳跃节点的答案,例如在到达第一级跟随者之前到达并被回答者的第三级跟随者上传。答案甚至可以完全在一组人之外传播,这些人可能通过一系列Quora关注关系来观看内容,一组我们将被称为作者的“关联受众”的用户。下面的图1显示了答案在小型用户网络中如何传播和接收upvote的示例。

Figure 1:通过回答者的网络邻域传播的回答的示意图。 答案的第一个upvoter通过搜索发现答案,给出答案的网络距离为2.该内容随后出现在跟随第一个upvoter的人的反馈中。 这位作者的第三位追随者upvote了答案,意味着它现在的网络距离为3.下一个upvoter在摘要电子邮件中接收答案,但是因为这个人直接跟随作者,他或她的upvote不会增加网络距离。最后,第四个upvoter发现主题feed中的答案。 没有从该upvoter到原始回答者的路径(即,第四upvoter在回答者的“连接的观众”之外); 因此,我们通常说,答案已经无限远地传播了。

因此,通过一系列不断追随者的病毒式upvoting只是答案可以获得收视率的许多方式之一; Quora上的内容实际上可以通过几个不同的通道访问。然而,通过用户网络跟踪upvote的传播为我们提供了一个有价值的观点,Quora如何作为一个产品,连接人们想要的知识。我们希望高质量的答案被对相关知识感兴趣的人所看到,而不管他们是否以直接的或社会的方式与作者联系。换句话说,我们希望知识能够在Quora网络最远的地方为好奇的人们带来价值,并且理想情况下,我们希望这种情况尽可能高效地发生。当作者从用户网络的遥远部分接收upvote时,这是这个任务已经实现的许多可能的信号之一。

下面,我们将讨论关于如何在Quora网络中分发和发现答案的几个问题。在实践中,答案如何通过Quora网络传播?它从作者得到有多远,它多快到达那里?这些动态如何依赖于回答者及其上升者的特征?数据团队注意到,在Quora社区中也有这些问题的兴趣(例如,一个upvote是如何在Quora上的主题和关注者之间传播的),所以我们决定探索我们的第二个(和过期的)博客文章。

Summary of Findings

在我们开始旅程之前,下面是我们地一些发现:

  • •最近写的答案比几年前写的答案更快。 换句话说,他们在更短的时间内与作者在更远的网络距离被upvote:2014年1月写的答案在一年内达到了比2012年1月写的答案多三个更大的网络距离。
  • 答案仍在继续稳步增加他们的网络距离,甚至在写作后的几年。
  • 有一个有趣的属性,就是回答者的网络邻居有相对较少的追随者:他们的第一级upvoter通常有比他们更多的追随者,他们的第二级upvoter有更多的追随者。 因此,如果这些作者写的答案可以通过任何渠道(包括社交upvoting,搜索,相关问题等)达到适度的网络距离,则社交upvoting具有将它们进一步传递到连接的观众中的良好机会。
  • 答案具有很高的概率远离所连接的观众,并且以任何社交方式(无论是否间接的)与回答者接触不相关的人。 截至2014年年底,2012年1月,2013年1月和2014年1月分别有27%,30%和32%的答案分别由相关观众以外的人员upvoted 。

Methodology

在这篇博文中,我们将探讨2012年1月,2013年和2014年的答案如何通过用户网络传播到2014年年底地。我们会查看这几个月写的所有答案,这里不包括两个类别:随后被删除和那些匿名发布。从该分析中排除匿名内容是有意义的,因为该内容不能访问与公共内容相同的社交分发渠道。我们使用以下一般方法来计算每个答案所经过的距离:

Stage 1:在Python中使用NetworkX库,我们构建了用户图表,一直到答案队列的开头。例如,如果我们研究2012年1月的答案,我们添加所有节点(代表Quora用户)和链接(代表关系),直到2012年1月1日午夜。图2显示了一个在答案队列的开始的小卡通网络。

Figure 2: A small cartoon network right before the beginningof the answer cohort.

Stage 2:我们从回答的队列的开始逐日迭代到观察期结束(例如,从2012年1月1日到2015年1月1日)。 对于每一天,我们执行两个动作(我们将在后面讨论这两个动作的顺序):

  • We update the graph with all new signups and all new follow relationships. Here's an example of some updates to the network above:(真心翻不出原文的味道)

Figure 3: The cartoon network after a single graphupdate. Two new people have joined and one of the two has followed apre-existing user. Also, one pre-existing follow relationship has beenreciprocated.

  • We compute the distance between the author (or answerer - we'll use these two terms interchangeably) and the upvoter for each upvote that was cast on the answer cohort.

Figure 4: We compute the network distance for two upvotesthat were cast during the period. Answerers (or authors) are indicated with anA and upvoters are indicated with a U. The first has network distance 2 and thesecond has network distance 1. Stage 3:在计算所有投在答案队列上的upvoter的upvote距离后,我们选择各种截止时间t,只考虑在发布答案的时间t内投放的upvote,并找到每个答案的最大upvote距离。 如果在时间t之前没有upvote投票,那么该答案在图中的距离0处。

Figure 5: Illustration of the process of computing theupvote distance for each answer within a given time after writing. In this case,we filter down to only those upvotes cast within 1.5 days and then find themaximum upvote distance among the remaining upvotes. Answers that didn'treceive any upvotes within 1.5 days get assigned distance 0 (e.g., answer 3 inthis illustration).

实际在实现这个过程和解释数据有一些细微差别。 在继续我们的结果之前,我们将简要评论我们如何选择处理最重要的细节:

•我们应该包括哪些链接?我们选择添加一个链接到用户网络,如果被追随者添加了一个答案或upvote一个答案,只因为加入Quora。如果不是这样,我们会延迟添加链接,直到该人执行了其中一个操作。这有助于降低人工短路径对非活动用户的影响。

•在上述阶段2的给定时间步长中,我们应该先更新图表还是先计算当天的upvote的网络距离?这两个选项都会引入错误。我们将使用术语“更新优先”分析来指代我们首先更新图表的协议,并且使用“计算优先”分析来指代我们首先计算距离最大距离的协议。在本文的主要部分,我们使用“更新优先”的方法,它们给出了非常相似的结果。

•我们应如何解释所连接的观众中的网络距离?我们将通常将这些upvote称为“无限”远离回答者。这是一个惯例,常用于网络度量,如接近中心性。采用这个约定意味着答案可以在从0到到∞的距离

•这意味着,我们不能只是天真地平均网络距离的答案,所以我们将分别看看在相连的受众中的动态,然后解决该组之外的upvote。

--未完待续

原文发布于微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文发表时间:2016-12-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

总结:如何操作各大品牌工业机器人——认知篇

在这几年,各大工业机器人制造商,目前都热衷与人机协作,ABB的“玉米”,FANUC的“绿手臂”,KUKA的“伊娃”等等,在人机协作走的比较前的也就数UR了,我们...

36860
来自专栏大数据文摘

吴甘沙清华讲:大数据的10个技术前沿(中)

18630
来自专栏数据小魔方

对,你没看错,真的有这种操作~

之前的ggplot2入门实践篇已经更新告一段落,也已经做了归总分类分享给大家。 最近翻看突然发现少了一个知识点,就是分面中没有讲填充多边形分面的应用,虽然其理念...

43380
来自专栏IT派

Top 20-Python 机器学习开源项目

导语:KDnuggets 为您带来 Github 上最新的 Python 机器学习开源项目前 20 名。奇怪的是,去年一些非常活跃的项目渐渐停滞了,因此没能上榜...

35580
来自专栏机器之心

死磕论文前,不如先找齐一套好用的工具

作为像深度学习这样高产领域的研究人员,我们经常会发现自己被论文的汪洋所淹没。这些论文是如此之多,想全部读完并跟踪最新研究似乎很难很难。我觉得形成这种局面的一个重...

10230
来自专栏大数据文摘

2016年2季度爆文精选 TOP10

22880
来自专栏织云平台团队的专栏

T4 级老专家:AIOps 在腾讯的探索和实践

我今天要讲的主题,AIOps,是一个比较新的话题,其实从概念的提出到我们做,只有差不多一年的时间。一个新事物,有其发展的周期,在腾讯里面我们做了比较多的探索,但...

14.1K00
来自专栏用户2442861的专栏

MATLAB 比较好入门书籍有哪些推荐

https://www.zhihu.com/topic/19559252/hot

49310
来自专栏玉树芝兰

如何用Python从海量文本抽取主题?

你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过10...

43720
来自专栏数据的力量

如何选择合适的数据图表?

17240

扫码关注云+社区

领取腾讯云代金券