前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >The Quora Topic Network(下)

The Quora Topic Network(下)

作者头像
哒呵呵
发布2018-08-06 17:23:42
4830
发布2018-08-06 17:23:42
举报
文章被收录于专栏:鸿的学习笔记鸿的学习笔记

Hints of the Topic Hierarchy

为我们的网络确定的最简单的度量之一是每个节点的indegree。这只是指向节点的链接的权重的总和。在我们的例子中,这对应于我们在上一节中定义的入站链路权重的总和。虽然我们的加权程序使这个棘手的数量有直观解释,加权indegree确实有它的优点,它捕获我们需要的所有效果。如果问题 - 主题关联和策展确实创造符合我们直觉预期的主题层级,则主题有机会通过至少两个不同的机制获得大的indegree。像“职业建议”这样的话题可能有很大的不确定性,因为小的概念重叠(和罕见的cocitation)与大量的其他话题;同时,像物理学这样的主题也可能由于与其子学科的非常强的重叠(因此,频繁的cocitation)具有大的indegree。相反,非常具体的子主题如羚羊将有小的indegree。在将来,当Quora更大时,由于当前缺少的主题(如羚羊解剖)的存在,羚羊主题将获得更高的indegree,但是在适当策划的主题层级中,其indegree将总是保持低于例如动物。

上面的推理激发了一个非常简单的初始测试,主题层次是否正在发展。如果是,则概率主题网络中的节点的平均值和中值偏差可能表现得非常不同。中位数可能会被典型的主题所主导,这将具有小的indegree,并将相对较低。随着更多优化的主题添加到系统中,此指标可能会随时间减少。同时,平均值可能表现出大的不确定性的罕见“中心”的影响并且相当大。许多常见的网络理论指标可以很容易地使用Python软件包NetworkX计算,所以我们使用这个软件包来测量从2011年中期到现在的概率主题网络的快照的平均值和中位数indegree。结果与我们的预期一致:

Mean and medianindegree for nodes in the probabilistic topic network. The mean is dominated bytopic "hubs" of large indegree, while the median is controlled byrefined subtopics. This is the first hint of the topic hierarchy that has beenbuilt by the Quora community.

上面的图表明,我们可以从我们的主题网络推导出一个层次结构。我们现在将仔细审查最后的快照(即当前的“世界状况”)。在这样做时,我们将发现更多的层次结构的证据,最终在Quora的顶级活动“中心”的可视化。

Diving Deeper into the Topic Hierarchy

为了更全面地探索当前的“世界状态”,我们可以从超越概要统计数据开始,如平均值和中值,并检查完全度分布。我们的层次分布描述了随机选择的主题指向k个其他主题的概率。在本节中,我们将忽略链接的权重,因此k可以被认为是未加权的outdegree。

不同类型的网络可以具有不同形状的度分布。例如,在一个网络中,每个节点具有相等的被捆绑在一起的概率,你会期望看到大约一个泊松分布。另一方面,通过被称为优先附属的过程而增长的网络(其可以被认为是比不受欢迎的人更容易地使更多的朋友更受欢迎的人)将显示遵循幂律的分布(P(k)αk -γ)。具有幂律分布度分布的网络称为无规模网络。术语无量纲是指具有2k个链路的节点总是比具有k个链路的节点发生的可能性小2γ的性质,与k的值无关。

我们的主题网络的程度分布呈现幂律分布的特征(见下文),并且与k-1.6成比例。可以容易地解释主题网络的无标度性质:当处理具有许多问题(例如,物理学)的大主题时,询问者和回答者都有益于指定问题应用于的物理学中的子字段,从而增加这些主题将具有许多子主题或交叉主题的概率。每个问题的标签越具体,我们的主题网络的度分布的斜率越陡。

The probabilitythat a randomly selected topic has outdegree k. A larger kimplies an increasing number of links to other topics. 一个半有趣的事实是,99.8%的所有主题连接在一起在一个大的“组件”。它可能需要几跳,但如果你随机选择这个大组件中的任何主题作为起点,你可以“走”通网络的几乎所有的其他主题。再深入一点,让我们来看看另一个常用的度量:联合度分布(JDD)。 JDD实际上是2-D图,其允许我们相对地检查度k1的节点和度k2的节点链接在一起的频率。例如,对于特定的社交网络,您可以查看具有很多朋友的人(“受欢迎的人”)是否在一起出去,或者更可能是与没有很多朋友的人(“不那么受欢迎的人”)交朋友。一个网络,其中受欢迎的人相互挂在一起,不受欢迎的人互相交谈是多样的。相反的情况下,受欢迎的人与大多数不受欢迎的人一起出去是分裂的。

看看我们的主题网络的JDD(如下所示),我们可以看到网络是轻度反向的:大的,连接良好的,一般的主题往往链接到更小的,更具体的主题。在图中,这由在左上角和右下角的“热点”反映。换句话说,像汽车和汽车这样的大话题更有可能链接到较小的主题,例如汽车引擎和汽车修理,而不是另一个大的主题,例如图书。图表左下角的“热点”告诉我们,较小的主题也倾向于聚集在一起。虽然这些特征是有意义的,但是当仅基于问题同现来构建主题图时,不能假设它们是先验的。相反,它们是有机地再现我们直观预期的关系的发展层次的思考。

The probabilitythat a topic with k1 links and a topicwith k2 links are connected. Analogous to: "Do popularpeople with lots of friends mainly befriend other popular people, or mostlyunpopular people, and vice versa?" 到目前为止:我们有了一个无规模的网络,大主题链接到许多更小,更详细的主题,但是为了完全地回到家,我们来看一个更常用的度量:聚类系数。再次使用社交网络类比,CC测量任何两个朋友彼此也是朋友的概率,因为他们是我的朋友。例如,我是Amy,Brian和Chris的朋友,但在这三个人中,只有Amy和Brian是彼此的朋友。结果,我的聚类系数是13:在他们之间可能发生的3对可能的朋友中,只有一对实际上存在。

我们的主题网络的聚类系数的分布(见下图)随着主题的链接数量急剧减少。这个减少的曲线表明,较小的,更专门的主题,如Freddie Mercury和Brian May,倾向于紧密地聚集在一起,而较大的主题往往不这样做。这进一步支持网络图本质上是分层的情况。

The fraction ofall k topics that a certain topic links to, that are also linking to eachother. Analogous to: "What fraction of my friends are also pairwisefriends with each other?"

Topic Clustering

我们在主题网络中发现的层次结构允许我们在网络上执行一种类型的层次化主题聚类,以将网络减少到少数代表性主题。要将主题聚集在一起,我们按照以下步骤操作(有关图形表示,请参见下图):

  1. Create a list of empty trees with each topic as the root
  2. Find the topic with the largest total outdegree in the topic network
  3. Add the topic, and its subtree, to the subtree of each topic it links to with weight WAB/∑xWAx
  4. Remove the topic from the topic network

Goto 2 until only N topics are left

最终结果是一个主题列表,每个都是层次树结构的根节点,允许我们测量相关主题的紧密程度。

使用这些分层树,我们可以从主题网络中选择任何主题,并沿树上下“爬”以找到主题与其父和子主题的相对相关性。我们有目的地选择了这种模糊的聚类方式,允许一个话题有多个父母。这对于不是一个父主题的严格子集的主题特别有用。

如果我们在网络中只剩下2000个节点时停止将主题聚集在一起,我们将留下2000个主题,涵盖广泛的兴趣领域,如育儿,生物学和文学。

我们在所提到的2000个主题中显示了最大的33个主题(见下图)。每个主题群集的大小由可以(部分地)与主题相关联的问题的数量确定。每个链接的颜色表示这些主题彼此链接的强度(darker更强烈地链接)。

A visualization ofthe 33 largest (by number of questions) topics and their link strength.

有趣的是,我们直观地期望发生的相互关系实际上是可见的。例如,物理,数学和进化生物学等主题与科学有着相对较强的联系,物理和数学也是如此。请注意,在此图形中已使用主题名称移动应用程序和软件开发,以便更好地捕获这些群集中的子主题的内容。

Conclusion

在本博文的早期,我们注意到在我们扩展知识数据库时,保持一个刚性主题骨干的重要性。鉴于Quora多元化进入新的知识领域,对这一骨干网的需求尤其迫切。然而,正如我们已经看到的,一个庞大的,可扩展的主题层次结构自然地从Quora社区的标签中出现,相关和详细的主题信息。随着我们继续成长,多样化和规模化,这种新兴的主题结构将变得越来越详细,并且越来越多地填充利益,使我们能够为每个人提供最好和最相关的内容,照顾个人利益。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档