外行学 Python 爬虫 第一篇 介绍

为什么标题叫做“外行学 Python 爬虫”?是因为本人非 IT 互联网从业人员,唯一能说得上关系的是本人是一个 C 的开发人员,从事的是与嵌入式相关的工作,即与互联网无关,也与数据分析无关。那么为什么要学 Python 爬虫呢?原因一、多一门技能增加自己的职业竞争力。原因二、提升自己的生存「赚钱」能力。

看好人工智能、数据分析等行业未来的发展趋势,学习 python 来熟悉相关知识,也许未来会从事相关工作。

学习分三个阶段,第一阶段是看明白,第二阶段是做明白,第三阶段是讲明白。大多数时候能看明白,也可以做的出来,但是当需要讲给别人听的时候,就会发现自己还有很多内容没弄明白,处于是是而非的状态。我们平常人想要讲给别人听的机会少之又少,将所学的内容用文字记录下来,既是一个复盘的过程,也可以与更多的志同道合者进行交流。

学习 python 爬虫的第一步肯定是先要学习 python 的基础知识,我个人在这个过程大概用了两个月左右吧,每天用于学习 python 的时间有 2 个小时「毕竟还是要上班养家的,当前的工作还是最重要的」。对于 python 基础知识来说只需要学好 简明 python 教程 和 廖雪峰的 python 教程 就可以了。开发语言和我们人类的语言一样,要想熟练的使用,关键的关键还是在于多使用。开始的时候我就直接照着书上的示例来一段一段的敲出来验证实现的功能。以下在这个过程中所敲出来的部分文件:

掌握了基本的 python 语法以后,就可以开始自己真正意义上的程序了。我选择了以爬取 https://www.szlcsc.com/ 这个网站的内容为目标的爬虫实现。将爬虫的实现过程大致分为以下几个步骤:

  1. 获取并解析单个网页的内容,需要用的 urllib、regex、beautifulSoup 等。
  2. 通过输入一个网页解析并获取与之相关连的网页的内容,需要解决 url 去重的问题。
  3. 将解析到的网页内容保存到文件或数据中。

以上就是我从一个外行,到第一个 python 爬虫正常运行「写这篇文章的时候它依然在读取网站的内容」的一个简单的过程,总的来说 python 是一个非常容易上手的开发语言。

第一篇介绍就到这里了,后面会把已经实现功能的实现过程记录下来,同时也会继续完善软件的功能。

原文发布于微信公众号 - keinYe(keinYe_zh)

原文发表时间:2019-04-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券