Upvote Dynamics on the Quora Network(下)

Results

Dynamics Within the Connected Audience

在本节中,我们将看看答案在作者的相关受众中如何动态传播。在我们这样做之前,我们应该退一步,并反思我们如何期望网络距离的行为。具体来说,这个指标是否会是一件好事?在Quora,随着时间的推移,人们识别回答者谁生产了高品质的内容,并跟随他们。每当这种情况发生时,从读者到作者的网络距离缩短,这是生态系统应该具有的行为标志。

同时,许多现实世界和在线网络也展示着名的“小世界”效应,其中节点之间的典型距离一直很小,即使网络变得非常大[2,3]。我们在2015年初对我们的用户网络进行了这一点的抽查。如果我们忽略了跟随的方向性,我们首先确定了可以相互到达的节点集合。这些集合被称为“弱连接组件”,我们的图表,即使有积极的跟随过滤,主要是由一个巨大的组件,包括了所有Quorans的33%。所有其他弱连接分量的数量级较小。如果你选择一个随机对的人X和Y在巨型组件,仍然不能保证有一个路径从X到Y,因为链接的方向性。随机抽样的情况下,你可以找到一条路径,我们发现中值路径长度只有6个节点,表明一个“小世界”的效果可能在这里玩。当我们对Y是回答者并且X是upvoter的情况进行平均时,我们实际上的期望距离显著地小于6,因为Y偏向图中重要的跟随的节点。在这里,网络距离很小的事实也不是坏事。这只是Quora生态系统的机体功能的又一个信号。

即使在小世界网络中,典型的路径长度随着网络的增长而上升;它只是很慢。此外,当Quorans识别和跟随一个优秀的回答者时,他们可能缩短网络中的路径长度,但他们也增加了在距作者短距离的读者数量。这使得答案更容易在网络上采取前几个步骤。因此,我们至少期望早期传播答案的速度随时间变得更快,我们也可能期望答案最终达到稍大的网络距离。我们只需要进入我们的分析,期望绝对网络距离会很小,这将是一个非常困难的去移动指标。

在下面的图6中,我们显示了在2012年1月,2013年1月和2014年1月所写的答案中,所连接受众中的网络距离与时间的关系。答案的早期传播相对较快。我们可以从插图中的对数图看出,这种快速传播在大约一天的时间尺度上发生。这可能表示在反馈最积极地分布典型答案的时期。值得注意的是,这个初始突然增长达到的网络距离在2013年到2014年之间显着增长,2014年的答案平均距离为1.6跳,而2012年和2013年为1.2-1.3。

在短时间尺度(不到1天),2013年队列实际上达到了比2012年队列更低的网络距离。这可能有很多原因,从2013年初反馈如何运作到人们加入Quora那段时间的趋势。我们没有深入挖掘这一点,因为2013年的队列在一天后永久超过了2012年,因为2014年的队列表现相当出色。

在初始快速传播之后,网络距离的生长速度减慢。 这是有道理的,因为一旦一个答案进入反馈,摘要等中分配的初始循环,就需要通过搜索或相关问题等机制来发现。当内容通过这些渠道被重复发现时,它表明一些非常重要的特征:该内容可能表示需求高的知识。事实上,网络距离在初始突发之后基本都会上增长,虽然更慢,但是Quora上的一些最好的内容具有广泛的吸引力和常青的信号。有趣的是,对数曲线中的所有曲线都显示出传播延迟,之后答案实际上更快地传播。我们目前没有很好的解释。这些结点可以是一个或多个产品变化的签名,其重现了较好的较旧内容,或者可能存在我们忽略的一些其他机制。

Figure 6: Propagation of answers within the connectedaudience of the answerer for answers from January 2012, January 2013, andJanuary 2014. Upvotes at infinite network distance are excluded. The top plotis on a standard scale, while the bottom plot shows the same data on a log-logscale to highlight how the dynamics vary at different time scales. 关于图6的一个合理的问题是我们可能过于激进了。 例如,图形中包括尚未获得任何追随者的新作者写的答案。 在这些情况下,对于传播的答案,简单地划分了没有图的连接部分,并且网络距离将保持为0,直到作者建立了跟随图。同样,将人们写的数以千计的追随者与那些数量少的人的答案进行比较可能是不合适的。为了探讨这种可能性,在图7中,我们单独绘制了由不同范围的追随者作者写的答案的数据。

Figure 7: Propagation of answers within the connectedaudience of the answerer for answers from January 2013, broken down by followercount of the answerer at the time of posting. The top plot is on a standardscale, while the bottom plot shows the same data on a log-log scale tohighlight how the dynamics vary at different time scales. 正如预期的,网络距离对于作者具有更高的跟随者计数的答案有些更大。平均网络距离的差异似乎不是特别那么有趣,虽然,我们是在比较几个数量级的跟随者计数。要了解发生了什么,深入了解底层用户网络的结构是有益的。在图8中,我们通过绘制距离N对N的上调者的中值跟随者计数(或不等式),这是由回答者的追随者的数量分解而成的。

Figure 8: Median indegree of an actor on an answer vs.how far the actor is from the answerer in the network. At distance 0, the actoris the answerer. For distance 1 and greater, the actor is an upvoter. 更有趣的是,绿色曲线与在距离2处一样高。这表明,具有低跟踪计数的距离2的upvoters的作者通常能被很好地遵循,并且这些作者通过这些途径连接到大量的相关受众。注意,情况并非如此:可能的是,如果一个人尚未获得许多追随者,他或她的追随者本身可能没有很多追随者。数据表示则不然。像所谓的“友谊悖论”发生,其中这些作者的upvoters是更高的追随Quorans,和二级upvote的追随者甚至会更高度地遵循。

这个观察是非常重要的,因为它告诉我们关于由具有相对较低的跟随计数的作者写的答案的命运。这些答案可能更难以通过社交过程跳到网络距离1或2.然而,如果他们确实发生了通过这个初始“社交漏斗”或绕过它通过像搜索等其他渠道,那么社交渠道有很好的机会进一步传播它们。

关于图8的最后一个值得注意的观察是,在网络上的每个步骤实际上对应于更高的潜在收视率。例如,假设在距离2处的单个人通过搜索发现了来自2013年队列的答案,并且将其投票。然后,这可能将社会原因的答案暴露在距离3处的60-120个人之间的某处。如果这些人中的几个人决定增加它,那么它可以在距离4处暴露给许多其他人,等等。因此,即使网络距离增加1或2个步长,潜在收视率也增加得更快。这意味着平均网络距离的小变化可以表示平均观看率的更大变化。

Escape Dynamics

现在,我们将通过添加发生在“无限”距离的upvote来完成这个图片。在图9中,我们看一下2013年1月的答案,并画出至少达到网络距离N的次数(如果你好奇,最后一次 - 693天是由我们决定要包括到2014年年底的数据而决定的)。与我们以前的观察一致,从N = 3开始的次数有一个显着的下降。这对应于连接的受众中的答案。超过N = 5,曲线在N =∞时迅速恢复到它们的值。这表明曲线的这一部分由逃离相连的观众的答案所主导。

Figure 9: The fraction of answers in the January 2013 cohort that havereached at least network distance N vs. N, for differentcutoff times after the answers were written.

值得注意的是,有多少答案在事实上离开了连接的观众。回答后地一天,这个数据(∞

数据点在图9)约为12%,并在接下来的两年稳步上升,所以在写出后693天,分数约为30%,并继续上升。这是另一个证明由Quora社区产生的内容的质量,它仍然值得阅读和upvoting,即使是与作者没有社会关系的人,并且写了很久之后。

和以前一样,有趣的是看看图9,按照回答者的追随者数量分解。我们在图10中对于99周(或693天)后的单个时间片进行。这个图可能是由高度追随和低追随作者写的答案动态之间的差异的最直接的例证。对于具有超过1000个追随者的作者,使其至少距离1和2的概率非常高。之后,有一个急剧下降,网络距离4,分数几乎完全是由于答案,逃离了相连的观众。相比之下,对于只有1-10个追随者的回答者,在分数中有一个急剧下降使得它到距离1,但是从距离1-> 2和2-> 3的鳍概率的下降非常小。这是因为“友谊悖论”有助于使第一步进一步走出的答案,或者因为这些答案通过某些其他渠道被发现而绕过了社交渠道。

Figure 10: The fraction of answers in the January 2013 cohort that havereached at least network distance N vs. N

数据按回答者的关注者数量细分。另一方面,看起来由更高度追随的回答者写的答案以显着更高的速率逃离相连的观众。这有点令人惊讶,因为高度关注的作者本应在他们相连的观众之外具有较小的人口。这里的一个可能的机制是,某些着名作者广泛地写特定主题,并且它们的内容可以出现在新的Quorans的反馈或摘要中,其在注册过程中指示对该主题的兴趣。然后,如果这些新用户upvote的内容,它可能是一个upvote作用在无限upvote距离。即使有更多经验丰富的Quorans选择建立他们的主题跟随图,而不是任何单个作者,类似的机制也可能发生。

Conclusion

Quora渴望成为一个平台,人们可以创建非常高质量的内容,然后分发给每个对他们分享的知识感兴趣的人。在这篇博文中,我们采用了一个网络视角来挖掘这个方程的分布部分。特别是,我们已经了解了答案如何通过Quora用户网络。答案可以通过一系列病毒upvote从他们的作者向外传播,或者,它们可以绕过这个社会过程(例如,通过诸如搜索,相关问题,主题馈送等其他渠道被发现),从而完全登陆不同部分的用户网络。我们研究了答案的网络距离随着时间的推移而变化,因为它们通过所有这些渠道upvote。

通过比较2012年1月,2013年和2014年1月的队列的动态,我们发现更多的最近的队列的答案在更短的时间传播得更远。实际上,从图6中,我们可以看到,2014年1月的答案队列已经在近一年的时间里比2012年1月的队列已经进一步扩大了近三年。这部分是由于Quora的整体增长;平均来说,只有就平均而言,有更多的用户途径导致几年前的答案更远离回答者。然而,这也可能部分是由于用于向潜在感兴趣的读者分发内容的机制的持续改进。

我们还确定了答案传播远离不同数量的追随者的作者的方式的重要区别。如果回答者的关注者人数较多,则回答很容易在用户网络上执行前几个步骤。然而,每个步骤发出变得更难,并且很难达到超过距离3或4。这是因为相对不可能的是,与高度关注的作者的远距离的upvoters本身被高度遵循。同时,对于具有低跟踪计数的作者的回答,到达前几个网络距离是相对困难的。然而,由于“友谊悖论”效应,确实有更好的机会进一步社会传播的。即使到达距离4和5也不是很难。这是由于一种现象,如“友谊悖论”,其中这些作者的upvoters实际上倾向于比作者本人更高的追随计数。由于这种效应,来自具有低跟踪计数的作者的内容仍然有机会在用户网络中走得更远,只要它能够通过初始漏斗。

最后,我们注意到,答案有很高的概率逃脱连接的观众,达到了我们通常所说的“无限”网络距离。对于2013年1月的队列,高度关注的作者写的答案以更高的速度逃脱了相关的受众。然而,即使对于具有较低随访计数的回答者,该比率也相当高:在10岁以下的作者撰写的答案中,约有四分之一的受访者在2014年年底前逃离了相关受众。

原文发布于微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文发表时间:2016-12-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

George Hotz:请收下我的智驾系统代码(附论文)

【新智元导读】我知道以GeoHot的脾气,最终 comma.ai 全套AI模型的代码肯定会被他开源,但我没想到会这么快,而且我也没想到这么完备,几乎毫无保留,多...

4058
来自专栏媒矿工厂

视频体验评估标准(uVES1.0)模型及算法解读

视频业务快速发展,已经从强调用户规模走向注重提升服务品质的阶段。消费者对观看体验的要求不断提高,提升视频用户体验质量已经成为视频服务的主要竞争因素。

8100
来自专栏AI研习社

这 25 个开源机器学习项目,一般人我不告诉 Ta

在过去几年中,机器学习开辟了很多新的领域,出现了很多高级应用案例:Facebook的脸部识别、Netflix的电影推荐、PrimaAI的图像风格转移、Siri的...

942
来自专栏PPV课数据科学社区

3天学会TensorFlow | 香港科技大学

整理 | 周翔 2015 年底,谷歌开源了内部使用的深度学习框架 TensorFlow。与 Caffe、Torch、MXNet 等框架相比,TensorFlow...

3536
来自专栏机器之心

从标题到写作流程:写好一篇论文的十条基本原则

3156
来自专栏AI研习社

Facebook 开源 FAISS;MIT 开发机器学习数据合成系统 SDV | 开发者头条

更高效的聚类、相似性搜索算法库,Facebook 开源 FAISS MIT 黑科技,合成数据也能用于机器学习 机器学习算法成功预测人造地震 每日推荐阅读 Vi...

3474
来自专栏机器之心

前沿 | 硼酸钡钠,一种因机器学习而诞生的LED荧光粉

10 月 22 日,化学系助理教授 Jakoah Brgoch 及其实验室成员在 Nature Communications 期刊上发表了关于该研究的论文。

1231
来自专栏AI科技大本营的专栏

如何将深度学习与你正在做的事情相结合?

作者 | 李嘉璇 文章来源Gitchat,AI科技大本营合作发布,点击「阅读原文」查看交流实录 前言 人工智能是目前各行各业最火热的技术,如果说前两年是『互联...

36511
来自专栏人工智能头条

如何将深度学习与你正在做的事情相结合?

2012
来自专栏机器之心

前沿 | DeepMind提出新型架构IMPALA:帮助实现单智能体的多任务强化学习

3598

扫码关注云+社区

领取腾讯云代金券