Python-数据挖掘-初识
搜索引擎是通用爬虫的最重要应用领域。
第一步:爬取网页
搜索引擎使用通用爬虫来爬取网页,其基本工作流程与其它爬虫类似,大致步骤如下:
① 选取一部分种子 URL,将这些 URL 放入待爬取的 URL 队列。
② 取出待爬取的 URL,解析 DNS 得到主机的 IP,并将 URL 对应的网页下载下来,存储至已下载的网页库中,并将这些 URL 放进已爬取的 URL 队列。
③ 分析已爬取的 URL 队列中的 URL,分析其中的其它 URL,并且将 URL 放入待爬取的 URL 队列,从而进入下一个循环。
第二步:数据存储
搜索引擎通过爬虫爬取到网页后,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的 HTML 是完全一样的。
搜索引擎蜘蛛在爬取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬取。
第三步:预处理
搜索引擎将爬虫爬取回来的页面,进行各种预处理,包括:提取文字、中文分词、消除噪声、索引处理......
除了 HTML 文件外,搜索引擎通常还能爬取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT 文件等。在搜索结果中经常会看到这些文件类型。
第四步:提供检索服务,网站排名
搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索的相关信息展示给用户。同时能根据页面的 PageRank 值(链接的访问量排名)来进行网站排名。