前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python|简单理解网络爬虫带你入门

Python|简单理解网络爬虫带你入门

作者头像
算法与编程之美
发布2019-07-17 17:15:46
5270
发布2019-07-17 17:15:46
举报

欢迎点击「算法与编程之美」↑关注我们!

本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。

初识爬虫

入门编程的小白们总是对计算机领域的各种“黑科技”感到好奇,其中“爬虫”对于小白来说算是一个高大上的技术,所以今天我将为大家揭开爬虫神秘的面纱,同时带领大家和我一起写一个简单爬虫小程序。下面就让我们我们一起来学习爬虫吧。

爬虫的定义

网络爬虫是一种按照一定的规则自动爬取爬取网络信息的程序或者脚本。简单来说,网络爬虫就是就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘。

爬虫的类型和原理

通用爬虫又称全网爬虫,爬行对象从一些初始URL扩充到整个网站。其实现的原理如图:

首先获取初始化URL。初始化的URL地址可以人为的指定,也可以由用户指定的某个或者几个初始爬取网页决定。然后根据初始的URL地址爬取页面的信息,之后解析网页信息内容,将网页存储到原始数据库中,并且在当前获取的网页信息里发现新的URL地址,存放于一个URL队列里面。下面再从URL队列当中读取新的URL,从而获取新的网页信息,同时在新的网页中获得新的URL,并重复上述的爬取过程,满足爬虫系统设置的停止条件时,爬取停止。

聚焦网络爬虫又称主题网络爬虫,是选择性地爬行根据需求的主题相关页面的网络爬虫。

聚焦网络爬虫的执行原理和过程与通用爬虫大致相同,在通用爬虫的基础上增加两个步骤:定义爬取目标和筛选过滤URL,原理大致如图:

增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生或者已经发生变化的网页的爬虫,它能够在一定程度上保证所爬行的页面尽可能是新的页面。

深层网络爬虫是大部分内容不能通过静态URL获取的、隐藏在搜索表单后的、只有用户提交一些关键词才能获得的网络页面。

实践操作

在了解完了网络爬虫的原理我们下面就进入实战环节吧

运行程序后会在文件同级目录下生成爬取的文件。大家赶紧试试吧。

下周将为大家讲解urllib,并且将持续更新相关的爬虫文章哦,希望大家多多关注,一起点个赞吧。

END

主 编 | 张祯悦

责 编 | 官学琦

where2go 团队


微信号:算法与编程之美

温馨提示:点击页面右下角“写留言”发表评论,期待您的参与!期待您的转发!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法与编程之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CloudBase
云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为200万+企业和开发者提供高可用、自动弹性扩缩的后端云服务,可用于云端一体化开发多种端应用(小程序、公众号、Web 应用等),避免了应用开发过程中繁琐的服务器搭建及运维,开发者可以专注于业务逻辑的实现,开发门槛更低,效率更高。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档