专栏首页python3python3爬虫之开篇

python3爬虫之开篇

写在前面的话:

  折腾爬虫也有一段时间了,从一开始的懵懵懂懂,到现在的有一定基础,对于这一路的跌跌撞撞,个人觉得应该留下一些文字性的东西,毕竟好记性不如烂笔头,而且毕竟这是吃饭的家伙,必须用心对待才可以,从今天起,我将会把关于爬虫的东西进行一个整理,以供后期的查阅,同时也想将自己的一点点经验分享给大家。

  关于爬虫,在我们了解什么是爬虫之前,首先应该清楚为什么会需要爬虫。随着互联网的全球化,人们可以非常方便的通过网络来获取信息,但是,起初获取信息的方式就是人为的浏览、记录。但是当人们需要获取大量的信息时,人工方式就显得效率极其低下,这时,有些人就编写了一些程序放在互联网上运行,这些程序会按照人们编写的逻辑来快速的在互联网上采集信息,省事又省力,这种程序就叫做爬虫,也叫做蜘蛛(spider)。所以我们知道了,爬虫其实就是人为编写的一些程序,也也可以称之为脚本。

  爬虫是从哪儿来分析采集数据呢?当然是从网页上,比如人来获取信息是输入了关键字来搜索,然后点击想要看的网页,或者直接输入某一个网址来获取某一个页面的,那么爬虫呢?爬虫是如何获取页面的呢? 说白了,爬虫也是通过技术手段来模拟人的操作来获取页面的过程。爬虫先是模拟人的操作来获取到目标页面,然后再对目标页面进行分析,从而采集到人们刚兴趣的信息。 主要原理如下图:

  从上图我们了解到了爬虫的基本原理,但是请大家注意,上图中有两个过程我标红了,为什么呢?因为在整个爬取数据的过程中,这两个步骤是非常非常重要的,而且这也是爬虫与反爬相互博弈的地方。

  从上图我们可以了解到,爬虫的运行,主要分为四个过程:

  1. 获取目标url

  2. 获取网页

  3. 页面解析、提取信息

  4. 数据持久化

  不过对于我们来说,在编写爬虫之前,我们肯定已经知道了想要获取的网站地址,所以第一步我们基本上可以跳过。

  下面的二、三、四步是非常重要的,但是最最重要的还是第二、三步。

  关于第二步:获取网页,我们首先应该掌握两种Python标准库,一种是urllib,另一种是request,这两种库是帮助我们来获取目标网页的,当然还有一些其他的方法,这个我们以后会细细说来。

  对于第三步:解析页面,我们需要掌握集中解析库:Xpath、css选择器‘、正则表达式、Beautiful Soup、pyquery。这些库可以帮助我们从html网页的各种标签中准确的获取到我们想要得到的数据。

  关于第四步:数据的持久化,一般来说数据都会被放到数据库中,常见的数据库如mysql,oracle,MongoDB等等,当然,有时数据量过大也会有专门的文本服务器,图片服务器来存放数据。

好了,啰啰嗦嗦说了这么多,下一篇博客我就会直接从常用的请求库urllib来开始说起。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python爬虫了解第一篇

    py3study
  • Python爬虫-01:爬虫的概念及分类

    1.定义: 搜索引擎用的爬虫系统 2.目标: 把所有互联网的网页爬取下来,放到本地服务器形成备份,在对这些网页做相关处理(提取关键字,去除广告),最后提供一个...

    py3study
  • Python爬虫教程-34-分布式爬虫介

    这是经典的主从分布式爬虫结构图,图中的控制节点ControlNode就是上面提到的master,爬虫节点SpiderNode就是上面提到的slave。下面这...

    py3study
  • Python 网络爬虫概述

    几乎每个网站都有一个名为robots.txt的文档,当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就...

    Python知识大全
  • 聊一聊数据获取和爬虫

    木东居士
  • Python 爬虫介绍

    作为程序员,相信大家对“爬虫”这个词并不陌生,身边常常会有人提这个词,在不了解它的人眼中,会觉得这个技术很高端很神秘。不用着急,我们的爬虫系列就是带你去揭开它的...

    纯洁的微笑
  • python爬虫了解第一篇

    py3study
  • Python爬虫前奏

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    村雨遥
  • 如果你不知道做什么,那就学一门杂学吧

    多年以后,面对人工智能研究员那混乱不堪的代码,我会想起第一次和S君相见的那个遥远的下午。那时的B公司,还是一个仅有6个人的小团队,Mac和显示器在桌上依次排开,...

    青南
  • Python爬虫笔记(一):爬虫基本入门

    最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫。这是这个项目的第一篇文章,这次就...

    Angel_Kitty

扫码关注云+社区

领取腾讯云代金券