百度为什么知道的那么多——搜索引擎的原理

文章来源：企鹅号 - 阿驰聊游戏

百度为什么知道的那么多

在百度的广告语里有一句是“百度一下你就知道”。我们时常说这个时代是思想的时代，因为知识已经是每个人触手可得的了，因为我们每个人都知道有问题找百度。那么百度为什么知道这么多东西了。搜索引擎的原理是什么呢？

每一个搜索引擎的主要目的就是为了解决用户的困难，所以他们肯定需要尽可能的增加自己的知识储备，如果要达到知识储备的目的他们所做的第一件事就是：抓取网页。

这里就出现了一个十分好玩又专业的名词“网络爬虫”。顾名思义，所谓爬虫在我们的印象中就是无范围爬行的虫子，实际上每一家的搜索引擎都有专属于自己的网页抓取程序爬虫。这些爬虫追踪网页中的超链接留下的痕迹，顺着从一个网站找到下一个网站，然后经过超链接分析连续访问抓取更多网页。这些被抓去的网页叫做网页快照。因为整个互联网就是一个超链接的世界，所以从一个名词出发就会扩展到一个范围，这样就足够可以搜罗到很多网页。

第二步，在搜罗完这些网页之后，如何处理网页成了关键的问题。网络爬虫抓到网页后，还要对其抓取的网页进行处理，在处理的过程中最主要的一步的就是提取关键词，建立索引库和索引。其他还包括去除重复网页、分词。

最后：提供检索服务。用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页。

整个过程我们可以结合我们在使用搜索引擎的时候的工作流程，首先输入我们想要检索的关键词

相关的内容就会通过超链接的形式出现，这就是网络爬虫爬来的超链接，经过处理分类之后通过关键词这个密码出现在我们眼前的原理了！

发表于: 2019-08-102019-08-10 11:34:43
原文链接：https://kuaibao.qq.com/s/20190810A09OWE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

百度为什么知道的那么多——搜索引擎的原理

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐