家养爬虫的Python技术 | 资料总结

之前有一个讨论:

文本分析,一个很重要的环节就是网络的数据爬取。爬虫是获取数据的一个重要手段,很多时候我们没有精力也没有资金去采集专业的数据,自己动手去爬数据是可行也是唯一的办法了。所以,本文对如何“家养”爬虫的技术资料进行了系统的总结。

因为Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获取和清洗数据,因此本文总结的资料主要是关于Python的,适用于零基础的同学。

1. Python

如果完全没有Python的基础,建议看下面的教程如个门:

【统计师的Python日记】

(直接点击)

2. 初级爬虫

【推荐资料】

Python爬虫学习系列教程

http://cuiqingcai.com/1052.html

这个资料可以帮助我们了解一下爬虫的初级内容,如URL的含义、urllib和urllib2库的使用、正则表达式、Cookie的使用等等,也熟悉一下后面可能用到的基本名词,比如response、request等。

(在微信公众号里回复【sasre】,看正在更新的SAS正则表达式系列,至少可以了解一下什么是正则表达)

3. Scrapy

大名鼎鼎的Python爬虫框架—Scrapy。Scrapy是为了网页抓取所设计的应用框架,也可以用在获取API(例如 Amazon Associates Web Services ) 所返回的数据或者通用的网络爬虫。

这里分享一些数说君总结的资料。

(1)Scrapy的安装

分享一下我自己在windows环境下的安装方法:

  • 安装Anaconda。Python的很多库装起来很麻烦,我周围很多朋友在刚接触Python的时候,都被各种安装折磨的”不想在继续学下去了“。而Anaconda是一个开源的免费的python类库的集合,里面自带200+的包和各种依赖包。
  • 安装Scrapy库。Anaconda自带那么多东西,但是没有Scrapy,没关系,它自带了各种依赖库,所以安装起来没有那么多阻碍,直接在cmd中输入: conda install scrapy

以上就完成了安装。在cmd中尝试输入

scrapy startproject myspider

咦,已经创建一个爬虫项目了呢!

(2)入手一个例子

我个人的习惯是,不喜欢一上来就学习很多理论性的东西,偏好从一个例子入手,依样画葫芦的写一遍代码,让我更有想要了解的动力。

【推荐资料】

建立一个简单的爬取南邮新闻标题的爬虫demo

http://t.cn/RLeN3eF

这篇文章用一个很简单的例子,把整个流程走了一遍,初步了解的Scrapy的框架,也留了很多不懂的地方,以待下一步的学习。

(3)系统学习Scrapy

当然是官方文档了:

http://doc.scrapy.org/en/latest/intro/install.html

这里也有好人进行了翻译:

https://scrapy-chs.readthedocs.org/zh_CN/1.0/index.html

当涉及到一些其他的知识的时候,文档会给出相关的资料链接,这点真的太棒了,并且中文版本或给出中文的资料链接!

比如关于xpath的:

(4)试着爬取一些熟悉的网站

一边学,可以一边试试手,爬一下自己熟悉的网站。

这里有几个例子供大家参考

  • Scrapy 抓取豆瓣电影 http://t.cn/Rbuad4r
  • 利用Python抓取亚马逊评论列表数据 http://www.tuicool.com/articles/nUvIja
  • Scrapy轻松抓取bbs数据 http://t.cn/RbuasDs

关于Python爬虫,欢迎大家一起交流,在最下方的评论区里留言。

也欢迎参与文本分析的讨论:

将会继续为大家带来网页爬取、文本分析的资料总结。

原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2016-01-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏web前端教室

从零开始学前端,也要注意大局观

一晃零基础web前端课程又讲一周了。 这一周我们都做了些什么呢?一是把json的编辑和获取都过了,然后是使用json来生成dom并绑定相应事件然后添加到页面中。...

2118
来自专栏FreeBuf

2016 黑客必备的Android应用都有哪些?

免责声明:本人所发布的此份清单仅供学习之用。我们不支持读者利用其中的任何工具进行任何不道德的恶意攻击行为。 ? 根据业界的一系列评测以及亲身经验,我们整理出了...

2198
来自专栏北京马哥教育

『九个月实现破亿用户的可扩展架构』学习笔记

昨晚把美拍架构负责人洪小军在Qcon上的『九个月实现破亿用户的可扩展架构』分享看了一遍(其实那场QCon我也在现场,但是当时小军这个会场实在太多人了,而且当时北...

3625
来自专栏编程直播室

Windows 下安装 Python2

1735
来自专栏H2Cloud

H2Engine服务器引擎介绍

H2Engine服务器引擎介绍 简介   H2Engine服务器引擎架构是轻量级的,与其说是引擎,个人觉得称之为平台更为合适。因为它封装的功能非常精简,但是提供...

5988
来自专栏JAVA高级架构

饿了么:日订单量超900万的架构设计及演进之路

网站在刚开始的时候大概只是一个想法:一个产业的模型,快速地将它产生出来。“快”是第一位的,不需要花太多精力在架构设计上。在网站进入扩张期才需要对架构投入更多的精...

1342
来自专栏后端技术探索

电商平台搞秒杀背后的技术实现

每当电子商务平台搞活动,“秒杀”经常是提升网站活跃度的利器之一。比如活动日早上10点1元爱疯7秒杀7台,谁看到了估计都想去秒一把,万一秒中了呢。秒杀的典型特征就...

1133
来自专栏北京马哥教育

大神分享美团外卖订单中心演进之路

? 作者:何轼 来源: http://tech.meituan.com/mt_waimai_order_evolution.html 前言 美团外卖从20...

5247
来自专栏Python小白进阶之旅

Python学习资料免费下载

6174
来自专栏带你撸出一手好代码

使用windows 10的8大理由

相对于在不情愿的情况下被微软强制将系统升级为windows 10和现在还在着使用windows 7的电脑同学,我是windows 10系统的积极拥护者。当win...

35511

扫码关注云+社区

领取腾讯云代金券