大数据 | Spark中实现基础的PageRank

吴军博士在《数学之美》中深入浅出地介绍了由Google的佩奇与布林提出的PageRank算法,这是一种民主表决式网页排名技术。书中提到PageRank的核心思想为:

在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。

同时,该算法还要对来自不同网页的链接区别对待,排名越高的网页,则其权重会更高,即所谓网站贡献的链接权更大。

例如网页Y被X1,X2,X3,X4四个网页所链接,且这四个网页的权重分别为0.001,0.01,0.02,0.04,则网页Y的Rank值=0.01+0.02+0.03+0.04=0.071。但问题是,如何获得X1,X2,X3,X4这些网页的权重呢?答案是权重等于这些网页自身的Rank。然而,这些网页的Rank又是通过链接它的网页的权重计算而来,于是就陷入了“鸡与蛋”的怪圈。解决办法是为所有网页设定一个相同的Rank初始值,然后利用迭代的方式来逐步求解。

在《数学之美》第10章的延伸阅读中,有更详细的算法计算,有兴趣的同学可以自行翻阅。下面是PageRank的简单执行步骤:

  • 首先假定所有网页的初始Rank值为1/N,N为所有网页的数量。
  • 开始迭代。每次迭代,则页面p会将r/n的值发送给所有链接了p页面的邻居页面。其中,r为当前页面的rank值,n为链接了当前页面的邻居页面数。该值实则就是当前页面p这次迭代的贡献者(contribution)。
  • 每次迭代结束时,都对最终获得的contributions进行求和。假设每个contribution为c(i),则可以通过公式α/N + (1-α)∑c(i)获得每个页面的rank值。其中,α是一个常数值,可以认为是一个调优参数(tuning parameter),N为所有页面的数量。

究竟应该迭代多少次呢?由于PageRank实则是线性代数中的矩阵计算,佩奇和拉里已经证明了这个算法是收敛的。当两次迭代获得结果差异非常小,接近于0时,就可以停止迭代计算。《数学之美》中提到:“一般来讲,只要10次左右的迭代基本上就收敛了。”

原文发布于微信公众号 - 逸言(YiYan_OneWord)

原文发表时间:2015-02-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯移动品质中心TMQ的专栏

启动耗时可以这样测~

启动耗时作为App一项核心性能指标,腾讯地图现在是基本上每个版本都会进行数据的收集。纵向的对比(与自己)之前我们都依赖于开发埋点,横向的对比(与竞品)就是人工拿...

43670
来自专栏量子位

十分钟,我搞定了一个人物检测模型

人物检测确实是个老生常谈的话题了,自动驾驶中的道路行人检测、无人零售中的行为检测、时尚界的虚拟穿搭、安防界的人员监控、手机应用中的人脸检测……人物检测不易察觉,...

17150
来自专栏大数据文摘

LSTM之父最新力作:手把手教你训练一个有世界观的AI赛车手 | 论文+代码

13230
来自专栏机器之心

教程 | 无需复杂深度学习算法,基于计算机视觉使用Python和OpenCV计算道路交通

63380
来自专栏PaddlePaddle

【AI核心技术】课程八:卷积网络简介

UAI与PaddlePaddle联合推出的【AI核心技术掌握】系列课程持续更新中!

9930
来自专栏量化投资与机器学习

强化学习(Reinforcement Learning)应用于量化投资系列专题(二)——设计一个外汇交易系统基于自适应强化学习

往期文章(点击标题查看) 强化学习(Reinforcement Learning)系列(一) 今天带来机器学习应用于量化投资系列之 强化学习(Reinforce...

353100
来自专栏WOLFRAM

打造自动化数据科学家:新的分类和预测函数

11630
来自专栏fangyangcoder

MaskRCNN-Keypoints

这个月先写一篇吧,后面要复习数学考试了,可能到时候就忘了。今天写一个比较有意思的东西,关于人体的分割与姿态估计。如下图所示:

37430
来自专栏人工智能LeadAI

关联规则挖掘算法

关联规则挖掘是一种基于规则的机器学习算法,该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用...

52750
来自专栏AI科技评论

开发 | 低配硬件就不能运行深度神经网络了?手把手教你克服“杀牛用鸡刀”难题

如果对深度学习有所了解的小伙伴们想必都知道,深度学习需要使用强大的服务器、加速嵌入式平台(如NVIDIA的Jetson)来运行深度学习算法,然而这也同样意味着不...

43050

扫码关注云+社区

领取腾讯云代金券