搜索引擎如何爬行和抓取？

文章来源：企鹅号 - 莫小在天然护肤

今天是除夕夜。在这里祝：各位亲，除夕快乐，身体健康，事事如意！

下面来一篇干货。正如你们看到的题目文章，今天要分享的是搜索引擎如何爬行和抓取。

爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML存入数据库。

那什么叫蜘蛛呢？搜索引擎用来爬行和访问页面的程序，被称为蜘蛛(spider)也成为机器人(bot)。

最简单的爬行策略分为两种，一种是深度优先，一种是广度优先。

如图1所示，蜘蛛从A爬行到A1到A4，爬完了再返回到页面A，然后从B1爬行到B4就是深度优先爬行。

如图2所示，蜘蛛从A爬行到A1，B1，C1，然后再返回A1，从A1爬行到A2到A4。这就叫做广度优先爬行。

在实际工作中，蜘蛛的带宽资源和时间都不是无限的，所以我们通常是深度优先和广度优先混合使用。这样尽可能的能照顾到尽量多的网站，也可以照顾到一部分网站的内页。

大家就会问了，那我要如何吸引蜘蛛过来爬行和抓取我的网站呢？

嗯，主要有以下四个方面的影响因素。

第一点，网站和页面权重质量高，资格老的页面会被认为权重高。

第二点，网站更新速度越快越容易吸引蜘蛛来抓取和爬行。

第三点，尽可能多导入高质量的链接。

第四点，与首页点击的距离越近，权重越高。

接下来讲一下地址库。为了避免重复爬行和抓取地址，搜索引擎会建立一个地址库，记录已经被发现还没有被抓取的页面，已经被抓取的页面。

地址库中的URL主要有三个来源：

一，人工录入的种子网站。

二，站长通过搜索引擎网页提交表格提交进来的网址。

三是蜘蛛抓取页面后，进行数据对比后，如果是没有的地址就会存入待访问地址库。

现在搜索引擎更喜欢自己沿着链接发现新页面。

而搜索引擎抓蜘蛛抓取的数据会存入原始页面数据库中，其中页面数据与用户浏览器得到的https完全一样，每一个文件编号对应唯一的一个URL。

最后，这里要特别说明一下蜘蛛爬行时是会检测内容是否有复制的。

举个例子，如果是权重很低的网站，大量转载或复制的话是不会被收录的。

了解搜索引擎是如何爬行和抓取信息后，大家做SEO优化是不是更清楚哪些方向该有所侧重？就我个人来说，现在我优化网站时，都会首先考虑怎样优化更容易让网站信息被蜘蛛爬行和抓取。心里也更有底了，而不是盲目地优化，从而达到事半功倍的效果。

好啦，今天的文章就写到这里。大家可以留言和我多多学习交流。新的一年大家加油干。

相关快讯