专栏首页keinYePython 爬虫学习一

Python 爬虫学习一

要学习爬虫,首先要了解什么是爬虫,爬虫是用来做什么的,维基百科对爬虫的解释如下:

网络爬虫(英语:web crawler),也叫网上蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

简单来说网络爬虫就是自动索引互联网上信息的一段程序,看起来像是一个搜索引擎「实际上网络爬虫就是搜索引擎的重要组成部分」,对于我们不做搜索引擎的人来说又为什么来学习爬虫呢,对于我来说很简单,就是想要通过学习爬虫的过程来巩固 python 的知识,通过爬虫我们可以学到什么知识呢?我们可以学到网络编程、数据分析、数据存储。分别对应了爬虫的三个主要功能抓取、分析、存储

数据抓取

爬虫抓取数据的过程和浏览器浏览网页的过程是相同的,主要分为以下几个步骤:

  1. 通过 DNS 服务器获取输入域名的 IP 地址。
  2. 通过 GET 或 POST 请求向获取的 IP 地址请求数据。
  3. 获取服务器返回的数据。

数据分析

数据分析实际就是从爬虫抓取的网页中解析出实际所需的有效数据,常用的方法有:

  1. 正则表达式
  2. BeautifulSoup
  3. Lxml
  4. PyQuery
  5. CSSselector实际上并不止这几种,那么那种方法才才是最好的呢,这个并不绝对不,什么用着顺手什么就是最好的。对于我们初学者来说只需要学会使用一到两种即可。

强烈推荐使用正则表达式,因为正则表达式是一种通用的匹配规则,不仅可用于 python 中,还可用在任何语言中。

数据存储

数据分析完成,得到我们所需要的内容以后,就涉及到数据存储,毕竟我们不可能将所有的数据都放在内存中使用,这也是不现实的事情。数据存储「即数据持久化」主要有两种方式即文件存储和数据库存储。

本文分享自微信公众号 - keinYe(keinYe_zh),作者:keinYe

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 外行学 Python 爬虫 第九篇 读取数据库中的数据

    前面的一至八篇我们一直在研究如何从网站上快速、方便的获取数据,并将获取到的数据存储在数据库中。但是将数据存储在数据中并不是我们的目的,获取和存储数据的目的是为了...

    keinYe
  • 使用 Flask 创建 RESTful 服务

    依赖完成以后在 server 目录下再新建一个 server 目录作为项目的主目录,第一级 server 目录作为共用配置文件存储目录。

    keinYe
  • 外行学 Python 爬虫 第十篇 爬虫框架Scrapy

    前面几个章节利用 python 的基础库实现网络数据的获取、解构以及存储,同时也完成了简单的数据读取操作。在这个过程中使用了其他人完成的功能库来加快我们的爬虫实...

    keinYe
  • 网络爬虫的风险

    随着互联网的发展,网络爬虫也越来越多,爬虫本身是一种网络技术,所以爬虫不是违法的技术。如果使用爬虫技术去做违法项目,例如:色情,赌博等违法业务,一旦发现就会触碰...

    用户6172015
  • 爬虫开发者职业生涯的终止!

    "给你个帐号,你用这个帐号登录进XXX系统,把所有的数据给我爬下来!" “这个是犯法的吧,我不做!”

    CainGao
  • 如果你不知道做什么,那就学一门杂学吧

    多年以后,面对人工智能研究员那混乱不堪的代码,我会想起第一次和S君相见的那个遥远的下午。那时的B公司,还是一个仅有6个人的小团队,Mac和显示器在桌上依次排开,...

    青南
  • Python 网络爬虫概述

    几乎每个网站都有一个名为robots.txt的文档,当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就...

    Python知识大全
  • 就想写个爬虫,我到底要学多少东西啊?

    但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器...

    磐创AI
  • python技术是学习web开发还是做爬虫好?

    网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。下面是小编为您整理的关于python做web还是做爬虫,希望对你有所帮助。

    python学习教程
  • python爬虫了解第一篇

    py3study

扫码关注云+社区

领取腾讯云代金券