前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >The Quora Topic Network(上)

The Quora Topic Network(上)

作者头像
哒呵呵
发布2018-08-06 17:23:14
6980
发布2018-08-06 17:23:14
举报
文章被收录于专栏:鸿的学习笔记鸿的学习笔记

--想知道quora的网络是怎么连接的吗?

By Don van der Drift

Introduction

主题在Quora的知识生态系统中扮演着几个关键角色。例如,人们按照主题来表示他们的兴趣,这有助于我们向他们展示他们会发现有价值和吸引力的内容。同时,当人们添加问题时,他们用相关主题标记它们,以便该问题可以被传递给具有相关专业知识的回答者,以及希望更多地了解该问题的人。为了补充这一点,人们识别他们具有专门知识的主题,以及他们可以在他们的个人页面或通过他们的主题bios提供令人信服的答案。主题形成了Quora的知识语料库的重要组织骨干。

这个骨干将只会变得更加重要,因为语料库会继续增长。早期,Quora的硅谷根基允许它迅速成为关于创业和关于创业的问题的一个伟大的平台。在过去几年里,来自世界各地的人都加入了,带来了他们各种激情和兴趣。我们的目标是成为互联网上尽可能多的主题的最佳知识来源。实现这一点需要多元化到新的知识领域和一个可扩展的方案组织内容,因为它的增加。我们最近研究了我们在这两个领域的做法,发现:

  1. 人们正在迅速增长的主题中创造高质量的内容
  2. 通过用相关主题标记内容并策划此元数据,人们正在创建一个明智的知识领域的层次结构。

因此,Quora社区有机地创建了一个能够健康扩展的知识体系,使我们较为乐观地实现了共享,组织和发展世界知识的目标。在这篇博客中,我们描述了支撑这种乐观主义的工作。我们的分析依赖于描述人们对Quora采取的各种行动的数据:用户彼此跟随,但他们也遵循问题和主题。同时,如上面已经提到的,用户使用相关主题的列表来标记问题。用户,问题和主题之间的这些关系可以通过这里所示类型的图形来描述:

A schematicrepresentation of "following" relationships on Quora. Users (U)follow one another, and they also follow questions (Q) and topics (T).Additionally, questions are tagged with pertinent topics. Networks or graphs ofthis type provide the setting for the analyses that we describe in this blogpost. Quora's Diversification

作为我们调查的第一步,我们想要获得Quora扩展到新的知识领域的定量意义。换句话说,目前有多少主题有着大量的内容,这个数字会如何随时间变化?在概念上,我们开始构建上面所示网络的快照,用于从2011年中期到现在的日期。在每个图表中,如果至少有两个用户指向它,我们决定将一个问题识别为“好”。由于问题的作者自动遵循它,这个标准确保至少一个其他人发现该问题有价值,并对该答案好奇。最后,我们简单地计算了多少个好问题指向图中的每个主题。结果总结在以下图表中,其中我们显示在给定日期有超过100个好问题的主题数量。

The plot shows thenumber of topics that had at least 100 "good" questions by the dateon the x-axis. We've recently passed 5000 distinct topics that meet thisthreshold. 图形显示,现在有超过5000个主题有至少100个好问题。这几乎是2011年年中达到这一门槛的主题数量的四倍。这意味着有至少5000个主题“边界点”,其中对特定主题感兴趣的人都可以找到大量的引人注目的内容。这些发达的主题非常多样化,从约会和关系到医学,医疗保健和访问以及旅行到数学。同时,围绕技术,创业和创业的讨论继续蓬勃发展。最激动人心的是,一系列发达的主题正在迅速增长,因此我们预计,拥有越来越广泛的兴趣的人们将会发现Quora是一个有吸引力的平台来分享和发现知识。

Defining the Probabilistic Topic Network

这种快速增长是伟大的,但是要成功地完成我们的使命,Quora中的绝对知识不足以能迅速地转变为新的领域。这种知识还需要组织起来,以便能够有效地探索和共享。主题数据也可以用来探索Quora在这方面做了什么。

这里的关键观察是,用多个主题标记问题提供了关于主题间关系的潜在丰富的元数据。作为一个简单的例子,考虑以下问题:What is it like being the voice ofa Disney character?它标有主题华特迪士尼公司(公司),迪士尼电影,声音和动画。迪斯尼电影是概念上,迪斯尼公司(公司)的子主题:所有关于迪斯尼电影的问题都是关于迪斯尼公司(公司)。与此同时,华特迪士尼公司(公司)和动画都不是另一个的副标题,但这些仍然是密切相关的话题,因为华特迪士尼公司(公司)作为动画电影的制造商的突出。最后,话题Voice虽然与这个特定问题显然相关,但与其他三个主题没有强烈的概念上的联系。这些主题之间的关系不能仅仅通过查看这一个问题来推导,但我们有动机询问是否他们可以从Quora的整个问题语料库推断。换句话说,通过用主题标记问题,Quora社区是否有机地创建主题层次结构?

为了回答这个问题,我们从用户,主题和节点的图表开始介绍。我们希望将这个图形缩小为只包含主题和编码主题间关系的有向链接。我们开始通过绘制从主题A到主题B的链接,如果两个主题被标记在一起,或cocited至少一个问题。注意,这种cocitation也将产生一个相反的方向,从A到B的链接。例如,一个问题,如尼尔·阿姆斯特朗和Buzz Aldrin决定谁先走出外面?标签与主题Neil阿姆斯特朗,Buzz Aldrin,美国航空航天局和月亮着陆。在我们的网络中,这将产生每个主题和其他三个主题之间的有向链接。我们修改了这个简单的cocitation图形以捕捉主题之间的关系的固有不对称性:虽然许多问题在月亮登陆也将标记与美国航空航天局,反过来不一定是真的,因为NASA已经参与了许多其他科学任务。为了解释这一点,我们加权从月亮登陆到NASA的链接的概率与标题主题月亮降落的问题也标记与主题美国航空航天局。下图概括了这两个主题之间的链接的创建:

Schematization ofthe link-creation process in the probabilistic topic network. There aredirected links between any two topics that are cocited on at least onequestion. The weight of the link is the probability that a question tagged withthe pointing topic is also tagged with the topic to which it points. In thisexample, the link from MoonLandings to NASA is very strong because most questions about the Moon Landings also pertain to NASA. The reverse link is weaker because only a smallfraction of questions about NASA pertain to the MoonLandings. Themathematical expression for the link weight is given below. 对于这个概率图,我们想再添加一点信息:具体来说,我们想强调有多个追随者的问题。当人们跟随一个问题时,我们认为这是一个非常强烈的指示问题的质量(以及问题的主题被策划的程度)。因此,我们加权一个问题Nf次,如果它有Nf的追随者。在数学上,从主题A到主题B的结果链接强度或边权重看起来如下:

这个链路权重公式定义了我们的概率主题网络。在进入我们的分析之前,我们要强调的是,这不是我们可以定义来探索这些层次结构问题的唯一网络; 但它确实是一个方便和有信息量的选择。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档