前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >家养爬虫的Python技术 | 资料总结

家养爬虫的Python技术 | 资料总结

作者头像
数说君
发布2018-04-04 16:29:43
9320
发布2018-04-04 16:29:43
举报
文章被收录于专栏:数说工作室数说工作室

之前有一个讨论:

文本分析,一个很重要的环节就是网络的数据爬取。爬虫是获取数据的一个重要手段,很多时候我们没有精力也没有资金去采集专业的数据,自己动手去爬数据是可行也是唯一的办法了。所以,本文对如何“家养”爬虫的技术资料进行了系统的总结。

因为Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获取和清洗数据,因此本文总结的资料主要是关于Python的,适用于零基础的同学。

1. Python

如果完全没有Python的基础,建议看下面的教程如个门:

【统计师的Python日记】

(直接点击)

2. 初级爬虫

【推荐资料】

Python爬虫学习系列教程

http://cuiqingcai.com/1052.html

这个资料可以帮助我们了解一下爬虫的初级内容,如URL的含义、urllib和urllib2库的使用、正则表达式、Cookie的使用等等,也熟悉一下后面可能用到的基本名词,比如response、request等。

(在微信公众号里回复【sasre】,看正在更新的SAS正则表达式系列,至少可以了解一下什么是正则表达)

3. Scrapy

大名鼎鼎的Python爬虫框架—Scrapy。Scrapy是为了网页抓取所设计的应用框架,也可以用在获取API(例如 Amazon Associates Web Services ) 所返回的数据或者通用的网络爬虫。

这里分享一些数说君总结的资料。

(1)Scrapy的安装

分享一下我自己在windows环境下的安装方法:

  • 安装Anaconda。Python的很多库装起来很麻烦,我周围很多朋友在刚接触Python的时候,都被各种安装折磨的”不想在继续学下去了“。而Anaconda是一个开源的免费的python类库的集合,里面自带200+的包和各种依赖包。
  • 安装Scrapy库。Anaconda自带那么多东西,但是没有Scrapy,没关系,它自带了各种依赖库,所以安装起来没有那么多阻碍,直接在cmd中输入: conda install scrapy

以上就完成了安装。在cmd中尝试输入

scrapy startproject myspider

咦,已经创建一个爬虫项目了呢!

(2)入手一个例子

我个人的习惯是,不喜欢一上来就学习很多理论性的东西,偏好从一个例子入手,依样画葫芦的写一遍代码,让我更有想要了解的动力。

【推荐资料】

建立一个简单的爬取南邮新闻标题的爬虫demo

http://t.cn/RLeN3eF

这篇文章用一个很简单的例子,把整个流程走了一遍,初步了解的Scrapy的框架,也留了很多不懂的地方,以待下一步的学习。

(3)系统学习Scrapy

当然是官方文档了:

http://doc.scrapy.org/en/latest/intro/install.html

这里也有好人进行了翻译:

https://scrapy-chs.readthedocs.org/zh_CN/1.0/index.html

当涉及到一些其他的知识的时候,文档会给出相关的资料链接,这点真的太棒了,并且中文版本或给出中文的资料链接!

比如关于xpath的:

(4)试着爬取一些熟悉的网站

一边学,可以一边试试手,爬一下自己熟悉的网站。

这里有几个例子供大家参考

  • Scrapy 抓取豆瓣电影 http://t.cn/Rbuad4r
  • 利用Python抓取亚马逊评论列表数据 http://www.tuicool.com/articles/nUvIja
  • Scrapy轻松抓取bbs数据 http://t.cn/RbuasDs

关于Python爬虫,欢迎大家一起交流,在最下方的评论区里留言。

也欢迎参与文本分析的讨论:

将会继续为大家带来网页爬取、文本分析的资料总结。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-01-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档