专栏首页算法与编程之美Python|简单理解网络爬虫带你入门

Python|简单理解网络爬虫带你入门

欢迎点击「算法与编程之美」↑关注我们!

本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。

初识爬虫

入门编程的小白们总是对计算机领域的各种“黑科技”感到好奇,其中“爬虫”对于小白来说算是一个高大上的技术,所以今天我将为大家揭开爬虫神秘的面纱,同时带领大家和我一起写一个简单爬虫小程序。下面就让我们我们一起来学习爬虫吧。

爬虫的定义

网络爬虫是一种按照一定的规则自动爬取爬取网络信息的程序或者脚本。简单来说,网络爬虫就是就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘。

爬虫的类型和原理

通用爬虫又称全网爬虫,爬行对象从一些初始URL扩充到整个网站。其实现的原理如图:

首先获取初始化URL。初始化的URL地址可以人为的指定,也可以由用户指定的某个或者几个初始爬取网页决定。然后根据初始的URL地址爬取页面的信息,之后解析网页信息内容,将网页存储到原始数据库中,并且在当前获取的网页信息里发现新的URL地址,存放于一个URL队列里面。下面再从URL队列当中读取新的URL,从而获取新的网页信息,同时在新的网页中获得新的URL,并重复上述的爬取过程,满足爬虫系统设置的停止条件时,爬取停止。

聚焦网络爬虫又称主题网络爬虫,是选择性地爬行根据需求的主题相关页面的网络爬虫。

聚焦网络爬虫的执行原理和过程与通用爬虫大致相同,在通用爬虫的基础上增加两个步骤:定义爬取目标和筛选过滤URL,原理大致如图:

增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生或者已经发生变化的网页的爬虫,它能够在一定程度上保证所爬行的页面尽可能是新的页面。

深层网络爬虫是大部分内容不能通过静态URL获取的、隐藏在搜索表单后的、只有用户提交一些关键词才能获得的网络页面。

实践操作

在了解完了网络爬虫的原理我们下面就进入实战环节吧

运行程序后会在文件同级目录下生成爬取的文件。大家赶紧试试吧。

下周将为大家讲解urllib,并且将持续更新相关的爬虫文章哦,希望大家多多关注,一起点个赞吧。

END

主 编 | 张祯悦

责 编 | 官学琦

where2go 团队


微信号:算法与编程之美

温馨提示:点击页面右下角“写留言”发表评论,期待您的参与!期待您的转发!

本文分享自微信公众号 - 算法与编程之美(algo_coding),作者:官学琦

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 人工智能|大数据时代的信息获取

    人们最初,信息获取的方式单一,但是获取信息的准确性更加的高。互联网时代,亦是大数据时代。新时代的数据有以下几点基本特征,数据量大、类型繁多、价值密度低、速度快、...

    算法与编程之美
  • 大数据时代的信息获取

    人们最初,信息获取的方式单一,但是获取信息的准确性更加的高。互联网时代,亦是大数据时代。新时代的数据有以下几点基本特征,数据量大、类型繁多、价值密度低、速度快、...

    算法与编程之美
  • 微信小程序|配置文本框样式、排版及点击页面跳转

    我们在使用一个小程序时,总是会看到页面给出你不同的选择文本框,而你需要单击文本框跳转到你需要了解的内容页面中去。因此,如何美化这些文本框以及如何配置页面跳转是我...

    算法与编程之美
  • 数据化时代,爬虫工程师才是真正“扛把子”

    就像在饭店里,你点了土豆并且能吃到,是因为有人帮你在土豆、萝卜、西红柿等中找到土豆,也有人把土豆拿到你桌上。在网络上,这两个动作都是由一位叫做爬虫的同学帮你实现...

    数据猿
  • 对爬虫工程师的理解

    本文转载自简书小温侯 原文链接:https://www.jianshu.com/p/61fe5b9320ac

    林清猫耳
  • 你为什么学爬虫?(赠书活动第③期)

    之前应邀转载了一个小伙伴的文章《爬取了陈奕迅新歌《我们》10万条评论数据发现:原来,有些人只适合遇见》,十分好评!小詹就想着爬一下曾经一度流行的那些青春校园电影...

    小小詹同学
  • 推荐一条高效的Python爬虫学习路径!

    如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,...

    python学习教程
  • python3 爬虫工作原理

    网络爬虫我们一般简称为爬虫或者蜘蛛,它是一个自动抓取网络信息的程序或代码脚本。 如果我们把互联网看成一张巨大的蜘蛛网,上面链接着各种各样的网页数据,爬虫就像蜘蛛...

    python鱼霸霸
  • Python爬虫与反爬虫左右互搏(带视频)

    爬虫与反爬虫是两类互斥的应用,它们争斗了多年。就像病毒程序与反病毒程序,永远是先有病毒程序,再有反病毒程序一样,爬虫程序总是先诞生,然后网站服务商就会想尽办法不...

    蒙娜丽宁
  • 找python爬虫小项目?github给你准备好了!

    即使我们都是程序员,但我们也并非都会修电脑,都会做酷炫的ppt,都会优化系统卡顿。其实程序员也是分行业、分专业的,就像医生也分内外科、呼吸科、神经科神的。

    efonfighting

扫码关注云+社区

领取腾讯云代金券