首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

百度为什么知道的那么多——搜索引擎的原理

百度为什么知道的那么多

在百度的广告语里有一句是“百度一下你就知道”。我们时常说这个时代是思想的时代,因为知识已经是每个人触手可得的了,因为我们每个人都知道有问题找百度。那么百度为什么知道这么多东西了。搜索引擎的原理是什么呢?

每一个搜索引擎的主要目的就是为了解决用户的困难,所以他们肯定需要尽可能的增加自己的知识储备,如果要达到知识储备的目的他们所做的第一件事就是:抓取网页。

这里就出现了一个十分好玩又专业的名词“网络爬虫”。顾名思义,所谓爬虫在我们的印象中就是无范围爬行的虫子,实际上每一家的搜索引擎都有专属于自己的网页抓取程序爬虫。这些爬虫追踪网页中的超链接留下的痕迹,顺着从一个网站找到下一个网站,然后经过超链接分析连续访问抓取更多网页。这些被抓去的网页叫做网页快照。因为整个互联网就是一个超链接的世界,所以从一个名词出发就会扩展到一个范围,这样就足够可以搜罗到很多网页。

第二步,在搜罗完这些网页之后,如何处理网页成了关键的问题。网络爬虫抓到网页后,还要对其抓取的网页进行处理,在处理的过程中最主要的一步的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词。

最后:提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页。

整个过程我们可以结合我们在使用搜索引擎的时候的工作流程,首先输入我们想要检索的关键词

相关的内容就会通过超链接的形式出现,这就是网络爬虫爬来的超链接,经过处理分类之后通过关键词这个密码出现在我们眼前的原理了!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190810A09OWE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券