温柔吗？网络爬虫换的

文章来源：企鹅号 - Python锦河

1 网络爬虫体系结构

网页爬虫的高层体系结构

一个爬虫不能像上面所说的，仅仅只有一个好的抓取策略，还需要有一个高度优化的结构。

Shkapenyuk和Suel（Shkapenyuk和Suel，2002）指出：设计一个短时间内，一秒下载几个页面的颇慢的爬虫是一件很容易的事情，而要设计一个使用几周可以下载百万级页面的高性能的爬虫，将会在系统设计，I/O和网络效率，健壮性和易用性方面遇到众多挑战。

网路爬虫是搜索引擎的核心，他们算法和结构上的细节被当作商业机密。当爬虫的设计发布时，总会有一些为了阻止别人复制工作而缺失的细节。人们也开始关注主要用于阻止主要搜索引擎发布他们的排序算法的“搜索引擎垃圾邮件”。

1.1 URL一般化

爬虫通常会执行几种类型的URL规范化来避免重复抓取某些资源。URL一般化也被称为URL标准化，指的是修正URL并且使其前后一致的过程。这里有几种一般化方法，包括转化URL为小写的，去除逗号（如‘.’ ‘..’等），对非空的路径，在末尾加反斜杠。

2. 爬虫身份识别

网络爬虫通过使用http请求的用户代理(User Agent)字段来向网络服务器表明他们的身份。网络管理员则通过检查网络服务器的日志，使用用户代理字段来辨认哪一个爬虫曾经访问过以及它访问的频率。用户代理字段可能会包含一个可以让管理员获取爬虫更多信息的URL。邮件抓取器和其他怀有恶意的网络爬虫通常不会留任何的用户代理字段内容，或者他们也会将他们的身份伪装成浏览器或者其他的知名爬虫。

对于网路爬虫，留下用户标志信息是十分重要的；这样，网络管理员在需要的时候就可以联系爬虫的主人。有时，爬虫可能会陷入爬虫陷阱或者使一个服务器超负荷，这时，爬虫主人需要使爬虫停止。对那些有兴趣了解特定爬虫访问时间网络管理员来讲，用户标识信息是十分重要的。

.用户爬虫的例子

以下是一系列已经发布的一般用途的网络爬虫（除了主题检索的爬虫）的体系结构，包括了对不同组件命名和突出特点的简短的描述。

 RBSE （Eichmann，1994）是第一个发布的爬虫。它有两个基础程序。第一个是“spider”，抓取队列中的内容到一个关系数据库中，第二个程序是“mite”，是一个修改后的www的ASCII浏览器，负责从网络上下载页面。

 WebCrawler（Pinkerton，1994）是第一个公开可用的用来建立全文索引的一个子程序，他使用库www来下载页面；另外一个程序使用广度优先来解析获取URL并对其排序；它还包括一个根据选定文本和查询相似程度爬行的实时爬虫。

 World Wide Web Worm (McBryan, 1994)是一个用来为文件建立包括标题和URL简单索引的爬虫。索引可以通过grep式的Unix命令来搜索。

 Google Crawler (Brin and Page, 1998)用了一些细节来描述，但是这些细节仅仅是关于使用C++和Python编写的、一个早期版本的体系结构。因为文本解析就是全文检索和URL抽取的过程，所以爬虫集成了索引处理。这里拥有一个URL服务器，用来给几个爬虫程序发送要抓取的URL列表。在文本解析的时候，新发现的URL传送给URL服务器并检测这个URL是不是已经存在，如果不存在的话，该URL就加入到URL服务器中。

 CobWeb (da Silva et al., 1999)使用了一个中央“调度者”和一系列的“分布式的搜集者”。搜集者解析下载的页面并把找到的URL发送给调度者，然后调度者反过来分配给搜集者。调度者使用深度优先策略，并且使用平衡礼貌策略来避免服务器超载。爬虫是使用Perl语言编写的。

 Mercator (Heydon and Najork, 1999; Najork and Heydon, 2001)是一个分布式的，模块化的使用java编写的网络爬虫。它的模块化源自于使用可互换的的“协议模块”和“处理模块”。协议模块负责怎样获取网页（例如使用HTTP），处理模块负责怎样处理页面。标准处理模块仅仅包括了解析页面和抽取URL，其他处理模块可以用来检索文本页面，或者搜集网络数据。

 WebFountain (Edwards et al., 2001)是一个与Mercator类似的分布式的模块化的爬虫，但是使用C++编写的。它的特点是一个管理员机器控制一系列的蚂蚁机器。经过多次下载页面后，页面的变化率可以推测出来，这时，一个非线性的方法必须用于求解方程以获得一个最大的新鲜度的访问策略。作者推荐在早期检索阶段使用这个爬虫，然后用统一策略检索，就是所有的页面都使用相同的频率访问。

 PolyBot [Shkapenyuk and Suel, 2002]是一个使用C++和Python编写的分布式网络爬虫。它由一个爬虫管理者，一个或多个下载者，一个或多个DNS解析者组成。抽取到的URL被添加到硬盘的一个队列里面，然后使用批处理的模式处理这些URL。平衡礼貌方面考虑到了第二、三级网域，因为第三级网域通常也会保存在同一个网络服务器上。

 WebRACE (Zeinalipour-Yazti and Dikaiakos, 2002)是一个使用java实现的，拥有检索模块和缓存模块的爬虫，它是一个很通用的称作eRACE的系统的一部分。系统从用户得到下载页面的请求，爬虫的行为有点像一个聪明的代理服务器。系统还监视订阅网页的请求，当网页发生改变的时候，它必须使爬虫下载更新这个页面并且通知订阅者。WebRACE最大的特色是，当大多数的爬虫都从一组URL开始的时候，WebRACE可以连续地的接收抓取开始的URL地址。

 Ubicrawer (Boldi et al., 2004)是一个使用java编写的分布式爬虫。它没有中央程序。它由一组完全相同的代理组成，分配功能通过主机前后一致的散列计算进行。这里没有重复的页面，除非爬虫崩溃了（然后，另外一个代理就会接替崩溃的代理重新开始抓取）。爬虫设计为高伸缩性和允许失败的。

 FAST Crawler (Risvik and Michelsen, 2002) 是一个分布式的爬虫，在Fast Search&Transfer中使用，关于其体系结构的一个大致的描述可以在[citation needed]找到。

 Labrador,一个工作在开源项目Terrier Search Engine上的非开源的爬虫。

 TeezirCrawler是一个非开源的可伸缩的网页抓取器，在Teezir上使用。该程序被设计为一个完整的可以处理各种类型网页的爬虫，包括各种JavaScript和HTML文档。爬虫既支持主题检索也支持非主题检索。

 Spinn3r, 一个通过博客构建反馈信息的爬虫。 Spinn3r是基于java的，它的大部分的体系结构都是开源的。

 HotCrawler,一个使用c语言和php编写的爬虫。

 ViREL Microformats Crawler，搜索公众信息作为嵌入到网页的一小部分。

除了上面列出的几个特定的爬虫结构以外，还有Cho (Cho and Garcia-Molina, 2002)和Chakrabarti (Chakrabarti, 2003)发布的一般的爬虫体系结构。

发表于: 2020-10-282020-10-28 21:01:59
原文链接：https://kuaibao.qq.com/s/20201028A0I3XM00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

温柔吗？网络爬虫换的

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐