要学习爬虫,首先要了解什么是爬虫,爬虫是用来做什么的,维基百科对爬虫的解释如下:
网络爬虫(英语:web crawler),也叫网上蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。
简单来说网络爬虫就是自动索引互联网上信息的一段程序,看起来像是一个搜索引擎「实际上网络爬虫就是搜索引擎的重要组成部分」,对于我们不做搜索引擎的人来说又为什么来学习爬虫呢,对于我来说很简单,就是想要通过学习爬虫的过程来巩固 python 的知识,通过爬虫我们可以学到什么知识呢?我们可以学到网络编程、数据分析、数据存储。分别对应了爬虫的三个主要功能抓取、分析、存储。
爬虫抓取数据的过程和浏览器浏览网页的过程是相同的,主要分为以下几个步骤:
数据分析实际就是从爬虫抓取的网页中解析出实际所需的有效数据,常用的方法有:
强烈推荐使用正则表达式,因为正则表达式是一种通用的匹配规则,不仅可用于 python 中,还可用在任何语言中。
数据分析完成,得到我们所需要的内容以后,就涉及到数据存储,毕竟我们不可能将所有的数据都放在内存中使用,这也是不现实的事情。数据存储「即数据持久化」主要有两种方式即文件存储和数据库存储。