前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python-数据挖掘-搜索引擎

Python-数据挖掘-搜索引擎

作者头像
小团子
发布2019-07-18 15:07:29
6080
发布2019-07-18 15:07:29
举报
文章被收录于专栏:数据云团数据云团数据云团

Python-数据挖掘-初识

搜索引擎是通用爬虫的最重要应用领域。

第一步:爬取网页

搜索引擎使用通用爬虫来爬取网页,其基本工作流程与其它爬虫类似,大致步骤如下:

① 选取一部分种子 URL,将这些 URL 放入待爬取的 URL 队列。

② 取出待爬取的 URL,解析 DNS 得到主机的 IP,并将 URL 对应的网页下载下来,存储至已下载的网页库中,并将这些 URL 放进已爬取的 URL 队列。

③ 分析已爬取的 URL 队列中的 URL,分析其中的其它 URL,并且将 URL 放入待爬取的 URL 队列,从而进入下一个循环。

第二步:数据存储

搜索引擎通过爬虫爬取到网页后,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的 HTML 是完全一样的。

搜索引擎蜘蛛在爬取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬取。

第三步:预处理

搜索引擎将爬虫爬取回来的页面,进行各种预处理,包括:提取文字、中文分词、消除噪声、索引处理......

除了 HTML 文件外,搜索引擎通常还能爬取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT 文件等。在搜索结果中经常会看到这些文件类型。

第四步:提供检索服务,网站排名

搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索的相关信息展示给用户。同时能根据页面的 PageRank 值(链接的访问量排名)来进行网站排名。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据云团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档