南挚seo:什么是搜索引擎?常见的搜索引擎蜘蛛有哪些?

为大家讲解了那么多优化知识,但是从来没有说过优化的最终目的是什么?其实我们做优化的最终目的就是为了收录,说白了就是为了搜索引擎抓取方便,既然讲到了搜索引擎,我们是不是应了解一下它的工作具体包括哪些内容?这期内容南挚seo小编就带大家了解一下搜索引擎的工作过程。

其实搜索引擎的工作过程大体上可以分成三个阶段。

(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

(3)排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

简单了解过搜索引擎的工作过程,我们来看一下搜索引擎的是如何爬行和抓取.

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

1.蜘蛛

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。

蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

和浏览器一样,搜索引擎蜘蛛也有标明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。下面列出常见的搜索引擎蜘蛛名称:

● Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛

● Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 雅虎中国蜘蛛

● Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)英文雅虎蜘蛛

● Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Google蜘蛛

● msnbot/1.1 (+http://search.msn.com/msnbot.htm) 微软Bing蜘蛛

● Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛

● Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )有道蜘蛛

2.跟踪链接

为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。

当然南挚seo在这里讲解的只是搜索引擎的皮毛,感兴趣的朋友记得加深研究。或者关注小编的微信公众和熊掌号!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181102G0G4GA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券