专栏首页大数据文摘数学之美:图论和网络爬虫

数学之美:图论和网络爬虫

作者:吴军 摘自:《数学之美》(人民邮电出版社)

离散数学包括数理逻辑、集合论、图论和近世代数四个分支。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。用 Google Trends来搜索一下“离散数学”这个词,可以发现不少有趣的现象。

我们上回谈到了怎样创建搜索引擎的索引,那么怎样自动下载互联网所有的网页呢,它要用到图论中的遍历(Traverse) 算法。

图论的起源可追溯到大数学家欧拉(Leonhard Euler)。1736 年欧拉来到德国的哥尼斯堡(Konigsberg,大哲学家康德的家乡,现在是俄罗斯的加里宁格勒),发现当地市民们有一项消遣活动,就是试图将下图中的每座桥正好走过一遍并回到原起点,从来没有人成功过。欧拉证明晰这件事是不行能的,并写了一篇论文,通常以为这是图论的开始。

图论中所讨论的的图由一些节点和连接这些节点的弧组成。如若我们把中国的城市当成节点,连接城市的国道当成弧,那么全国的公路干线网就是图论中所说的图。关于图的算法有许多,但最主要的是图的遍历算法,也就是怎样通过弧访问图的各个节点。

以中国公路网为例,我们从北京出发,看一看北京和哪些城市直接相连,好比说和天津、济南、石家庄、南京、沈阳、大同直接相连。我们可以依次访问这些城市,然后我们看看都有哪些城市和这些已经访问过的城市相连,好比说北戴河、秦皇岛与天津相连,青岛、烟台和济南相连,太原、郑州和石家庄相连等等,我们再一次访问北戴河这些城市,直到中国所有的城市都访问过一遍为止。这种图的遍历算法称为“广度优先算法”(BFS),由于它先要尽可能广地访问每个节点所直接连接的其他节点。

另外另有一种计谋是从北京出发,随便找到下一个要访问的城市,好比是济南,然后从济南出发到下一个城市,好比说南京,再访问从南京出发的城市,一直走到头。然后再往回找,看看中间是否有尚未访问的城市。这种方法叫“深度优先算法”(DFS),由于它是一条路走到黑。这两种方法都可以保证访问到全部的城市。

当然,不论接纳哪种方法,我们都应该用一个小本本,记录已经访问过的城市,以防一个城市访问多次或者遗漏哪个城市。

现在我们看看图论的遍历算法和搜索引擎的关系。

互联网实际上就是一张大图,我们可以把每一个网页看成一个节点,把那些超链接(Hyperlinks)看成连接网页的弧。许多读者可能已经注意到,网页中那些蓝色的、带有下划线的文字背后实际上藏着对应的网址,当你点下去的时间,浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为“超链接”。有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫,或者在一些文献中称为"机器人"(Robot)。世界上第一个网络爬虫是由麻省理工学院 (MIT)的学生马休.格雷(Matthew Gray)在 1993 年写成的。他给他的程序起了个名字叫“互联网漫游者”("www wanderer")。以后的网络爬虫越写越复杂,但原理是一样的。

我们来看看网络爬虫怎样下载整个互联网。

假定我们从一家门户网站的首页出发,先下载这个网页,然后通过度析这个网页,可以找到藏在它里面的所有超链接,也就等于知道了这家门户网站首页所直接连接的全部网页,诸如雅虎邮件、雅虎财经、雅虎新闻等等。我们接下来访问、下载并剖析这家门户网站的邮件等网页,又能找到其他相连的网页。我们让计算机一直地做下去,就能下载整个的互联网。当然,我们也要纪录哪个网页下载过了,以免重复。在网络爬虫中,我们使用一个称为“哈希表”(Hash Table)的列表而不是一个记事本纪录网页是否下载过的信息。

现在的互联网极度巨大,不能仅通过一台或几台计算机服务器就能完成下载任务。好比雅虎公司(Google 没有公然公布我们的数目,所以我这里举了雅虎的索引大小为例)宣称他们索引了 200 亿个网页,如果下载一个网页需要一秒钟,下载这 200 亿个网页则需要 634 年。因此,一个商业的网络爬虫需要有成千上万个服务器,而且由快速网络连接起来。

怎样创建这样复杂的网络系统,怎样协调这些服务器的任务,就是网络设计和程序设计的艺术了。

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-10-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 初学指南| 用Python进行网页抓取

    大数据文摘
  • ACL 2019年度回顾:自然语言处理发展趋势

    今年7月底,计算语言学协会年会(ACL)在风景优美的佛罗伦萨召开。会场设在了一座古老的Medici家族的城堡中。

    大数据文摘
  • TED视频-人工智能兴起,经济学家讲未来

    大数据文摘
  • 第50次文章:JQuery基础

    tips:window.onload 和 $(function)异同:两者的功能相同,都是等到页面加载结束之后,再执行内部的代码。但是有一定的区别,主要是win...

    鹏-程-万-里
  • JavaScript学习总结(一)——ECMAScript、BOM、DOM(核心、浏览器对象模型与文档对象模型)

    一、JavaScript简介 JavaScript是一种解释执行的脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型,它遵循ECMAScript标准...

    张果
  • JavaScript学习总结(一)——ECMAScript、BOM、DOM(核心、浏览器对象模型与文档对象模型)

    JavaScript是一种解释执行的脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型,它遵循ECMAScript标准。它的解释器被称为JavaSc...

    张果
  • JavaScript第三节

    其中 0, "", undefined,null, NaN,这几个值会转换成false,其他值都会转换成true

    用户3461357
  • 关于 Android 状态栏的适配总结

    Android 5.0 及其以后版本:设置属性 View.SYSTEM_UI_FLAG_LAYOUT_FULLSCREEN 使得我们的内容布局可以延伸到系统状态...

    开发者
  • PAT 1002 A+B for Polynomials (25分) 指数作为数组下标+系数作为值

    This time, you are supposed to find A+B where A and B are two polynomials.

    vivi
  • 软件alpha、beta、rc、stable各个版本有什么区别?

    很多软件在正式发布前都会发布一些预览版或者测试版,一般都叫“beta版”或者 “rc版”,特别是开源软件,甚至有“alpha版”,下面来解释一下各个版本的意思。

    码农架构

扫码关注云+社区

领取腾讯云代金券