首页
学习
活动
专区
工具
TVP
发布

搜索引擎如何爬行和抓取?

今天是除夕夜。在这里祝:各位亲,除夕快乐,身体健康,事事如意!

下面来一篇干货。正如你们看到的题目文章,今天要分享的是搜索引擎如何爬行和抓取。

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML存入数据库。

那什么叫蜘蛛呢?搜索引擎用来爬行和访问页面的程序,被称为蜘蛛(spider)也成为机器人(bot)。

最简单的爬行策略分为两种,一种是深度优先,一种是广度优先。

如图1所示,蜘蛛从A爬行到A1到A4,爬完了再返回到页面A,然后从B1爬行到B4就是深度优先爬行。

如图2所示,蜘蛛从A爬行到A1,B1,C1,然后再返回A1,从A1爬行到A2到A4。这就叫做广度优先爬行。

在实际工作中,蜘蛛的带宽资源和时间都不是无限的,所以我们通常是深度优先和广度优先混合使用。这样尽可能的能照顾到尽量多的网站,也可以照顾到一部分网站的内页。

大家就会问了,那我要如何吸引蜘蛛过来爬行和抓取我的网站呢?

嗯,主要有以下四个方面的影响因素。

第一点,网站和页面权重质量高,资格老的页面会被认为权重高。

第二点,网站更新速度越快越容易吸引蜘蛛来抓取和爬行。

第三点,尽可能多导入高质量的链接。

第四点,与首页点击的距离越近,权重越高。

接下来讲一下地址库。为了避免重复爬行和抓取地址,搜索引擎会建立一个地址库,记录已经被发现还没有被抓取的页面,已经被抓取的页面。

地址库中的URL主要有三个来源:

一,人工录入的种子网站。

二,站长通过搜索引擎网页提交表格提交进来的网址。

三是蜘蛛抓取页面后,进行数据对比后,如果是没有的地址就会存入待访问地址库。

现在搜索引擎更喜欢自己沿着链接发现新页面。

而搜索引擎抓蜘蛛抓取的数据会存入原始页面数据库中,其中页面数据与用户浏览器得到的https完全一样,每一个文件编号对应唯一的一个URL。

最后,这里要特别说明一下蜘蛛爬行时是会检测内容是否有复制的。

举个例子,如果是权重很低的网站,大量转载或复制的话是不会被收录的。

了解搜索引擎是如何爬行和抓取信息后,大家做SEO优化是不是更清楚哪些方向该有所侧重?就我个人来说,现在我优化网站时,都会首先考虑怎样优化更容易让网站信息被蜘蛛爬行和抓取。心里也更有底了,而不是盲目地优化,从而达到事半功倍的效果。

好啦,今天的文章就写到这里。大家可以留言和我多多学习交流。新的一年大家加油干。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190204G0SH7H00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券