首页
学习
活动
专区
工具
TVP
发布

手把手教你运营:SEO基础-技术-爬虫

爬虫:概念;工作流程

1. 概念:

定义:

网络爬虫(也叫网络蜘蛛),是一种自动获取网页内容的程序,爬虫抓取的网页将会被搜索引擎系统储存,进行一定的分析、过滤、并建立索引、以便之后的用户能够查询到这个页面。这个获取信息的程序就是爬虫。

爬虫与搜索引擎的关系:

爬虫为搜索引擎收集内容,搜索引擎展示的内容大部分是爬虫收集的。

2. 工作流程:

爬虫通过漫游的形式进行抓取,爬虫爬到一个页面后,看到一个链接,然后顺着那个链接又爬到另外一个页面。

爬虫是不停的从一个页面跳到另外一个页面的,它一边下载这个网页,一边在提取这个网页中的链接,那个页面上所有的链接都放在一个公用的“待抓取列表”里。

而且爬虫有个特点,就是它在访问你网站之间,不去判断你的这个网页本身怎么样的,不对网页内容判断就抓取,但是会有优先级的划分,尽可能不抓重复的内容,尽量抓重要内容(比如网站的公共部分)。

搜索引擎同时会派出多个爬虫进行多线路的抓取,所有被爬虫抓取的网页将会被系统储存,进行一定的分析、过滤(去重),并建立索引,以便以后的查询和检索。

笔记人

姓名:赵州瞧

微信公众号:赵州瞧运营

顺着天赋做事,逆着性格做人

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171219G0U4TI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券