专栏首页数说工作室家养爬虫的Python技术 | 资料总结

家养爬虫的Python技术 | 资料总结

之前有一个讨论:

文本分析,一个很重要的环节就是网络的数据爬取。爬虫是获取数据的一个重要手段,很多时候我们没有精力也没有资金去采集专业的数据,自己动手去爬数据是可行也是唯一的办法了。所以,本文对如何“家养”爬虫的技术资料进行了系统的总结。

因为Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获取和清洗数据,因此本文总结的资料主要是关于Python的,适用于零基础的同学。

1. Python

如果完全没有Python的基础,建议看下面的教程如个门:

【统计师的Python日记】

(直接点击)

2. 初级爬虫

【推荐资料】

Python爬虫学习系列教程

http://cuiqingcai.com/1052.html

这个资料可以帮助我们了解一下爬虫的初级内容,如URL的含义、urllib和urllib2库的使用、正则表达式、Cookie的使用等等,也熟悉一下后面可能用到的基本名词,比如response、request等。

(在微信公众号里回复【sasre】,看正在更新的SAS正则表达式系列,至少可以了解一下什么是正则表达)

3. Scrapy

大名鼎鼎的Python爬虫框架—Scrapy。Scrapy是为了网页抓取所设计的应用框架,也可以用在获取API(例如 Amazon Associates Web Services ) 所返回的数据或者通用的网络爬虫。

这里分享一些数说君总结的资料。

(1)Scrapy的安装

分享一下我自己在windows环境下的安装方法:

  • 安装Anaconda。Python的很多库装起来很麻烦,我周围很多朋友在刚接触Python的时候,都被各种安装折磨的”不想在继续学下去了“。而Anaconda是一个开源的免费的python类库的集合,里面自带200+的包和各种依赖包。
  • 安装Scrapy库。Anaconda自带那么多东西,但是没有Scrapy,没关系,它自带了各种依赖库,所以安装起来没有那么多阻碍,直接在cmd中输入: conda install scrapy

以上就完成了安装。在cmd中尝试输入

scrapy startproject myspider

咦,已经创建一个爬虫项目了呢!

(2)入手一个例子

我个人的习惯是,不喜欢一上来就学习很多理论性的东西,偏好从一个例子入手,依样画葫芦的写一遍代码,让我更有想要了解的动力。

【推荐资料】

建立一个简单的爬取南邮新闻标题的爬虫demo

http://t.cn/RLeN3eF

这篇文章用一个很简单的例子,把整个流程走了一遍,初步了解的Scrapy的框架,也留了很多不懂的地方,以待下一步的学习。

(3)系统学习Scrapy

当然是官方文档了:

http://doc.scrapy.org/en/latest/intro/install.html

这里也有好人进行了翻译:

https://scrapy-chs.readthedocs.org/zh_CN/1.0/index.html

当涉及到一些其他的知识的时候,文档会给出相关的资料链接,这点真的太棒了,并且中文版本或给出中文的资料链接!

比如关于xpath的:

(4)试着爬取一些熟悉的网站

一边学,可以一边试试手,爬一下自己熟悉的网站。

这里有几个例子供大家参考

  • Scrapy 抓取豆瓣电影 http://t.cn/Rbuad4r
  • 利用Python抓取亚马逊评论列表数据 http://www.tuicool.com/articles/nUvIja
  • Scrapy轻松抓取bbs数据 http://t.cn/RbuasDs

关于Python爬虫,欢迎大家一起交流,在最下方的评论区里留言。

也欢迎参与文本分析的讨论:

将会继续为大家带来网页爬取、文本分析的资料总结。

本文分享自微信公众号 - 数说工作室(shushuojun)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-01-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python 2 要退休了!

    不要急,Python 2 退休不是今天也不是这个月,而是在4年后的2020年4月12日,Python 2将不会被进行任何维护。根据Python发布的倒计时网站h...

    数说君
  • 学习Python 的7个理由

    原文:7 Reasons You Should Learn Python Now (https://dzone.com/articles/7-reasons-y...

    数说君
  • 数说工作室 2017年干货总结

    盘点2017年优质文章,并给出传送链接,方便大家取阅回顾。文末有福利~! 1、Python & R 代码对照速查表 文中将常用机器学习算法的Python和R代码...

    数说君
  • python爬虫常用库之requests详解

    这是日常学python的第11篇原创文章 在使用了urllib库之后,感觉很麻烦,比如获取个cookie都需要分几步,代码又多,这和python的风格好像有点不...

    sergiojune
  • [Python运维]Python3.6的安装

    这个专题讲解Python相关方面的内容,首先是运维方面,例如数据库,Linux等,后续会有Web,爬虫等。

    bsbforever
  • CentOS6 Upgrade Python

    CentOS6 升级Python2.7.X和Python3.X ---- 简述 由于产品需要从裸机开始开发所以所有的配置和开发也是从零开始,这个导航是基于cen...

    BrianLv
  • 【Python环境】Python 开发者节省时间的 10 个方法

    Python 是一个美丽的语言,可以激发用户对它的爱。所以如果你试图加入程序员行列,或者你有点厌倦C++,Perl,Java 和其他语言,我推荐你尝试Pytho...

    陆勤_数据人网
  • 干货 | Python 开发者节省时间的 10 个方法

    Python 是一个美丽的语言,可以激发用户对它的爱。所以如果你试图加入程序员行列,或者你有点厌倦C++,Perl,Java 和其他语言,我推荐你尝试Pytho...

    1480
  • Linux安装Python

        Linux下默认系统自带python2.6的版本,这个版本被系统很多程序所依赖,所以不建议删除,如果使用最新的Python3编译安装源码包和系统默认包之...

    py3study
  • Linux-CentOS6.9安装Python3与Python2共存

    sudo -s 1 查看CentOS系统自带的Python信息,一般为2.6或2.7版,我们接下来要做的就是保留系统自带的Python版本,并安装 Pyth...

    双面人

扫码关注云+社区

领取腾讯云代金券