文章/答案/技术大牛

发布

python大牛手把手教你用Scrapy爬达盖尔社区，超详细教程，看完秒会

文章来源：企鹅号 - Python语言学习

python作为一门高级编程语言，它的定位是优雅、明确和简单。阅读Python编写的代码感觉像在阅读英语一样，这让使用者可以专注于解决问题而不是去搞明白语言本身。Python虽然是基于C语言编写，但是摒弃了C中复杂的指针，使其变得简明易学。并且作为开源软件，Python允许对代码进行阅读，拷贝甚至改进。这些性能成就了Python的高效率，有“人生苦短，我用Python”之说，是一种十分精彩又强大的语言。

发出前两篇Python实战的文章之后，有同学和我反映：你的想法很牛逼，可是我就是看不懂你写的是什么，我Python不熟悉，看起来有点吃力。我细细一琢磨，这点是个问题。对于熟悉Python的同学，能够看懂我思路，但是对于那些没有Python基础，或者对Python不熟悉的同学，这样直接扔过来，可能会让他们失望而归。所以，这回我弄了一期手把手的实战教程，同时，在文章中遇到的知识点，还会有提供链接。完全对新手有好。

好了，废话不多说，学习代码就是要学以致用的。不能写了一遍代码就让代码吃灰。下面就跟我一起来搞吧。

小草网站是个好网站，我们这次实战的结果，是要把“达盖尔旗帜”里面的帖子爬取下来，将帖子的图片保存到本地，同时将帖子的一些相关信息，写入到本地的MongoDB中。这么乍一听，感觉我们做的事情好像挺多的，别慌，我带你慢慢的一步一步来搞起，问题不是很大。

手把手 Step By Stefp

Scrapy可以通过pip来安装:

$ pip install scrapy

接下来，我们去事先建好的工程目录里面，创建Scrapy的项目。这里，我们先看一下Scrapy的命令行怎么用，输入

$ scray -help

出来

看到，创建scrapy的工程的命令是

$ scrapy startproject

创建完的结果如下：

OK，这个时候，我们的目录内容变成了如下结构：

下一步就是创建我们的爬虫，还是依靠Scrapy本身自带的命令来创建。输入Scrapy自带四种爬虫模板：basic，crawl，csvfeed和xmlfeed四种。我们这里选择basic。

$ scrapy genspider --template=basic superspider bc.ghuws.men

创建成功，会出现以下提示：

这时候我们的工程目录就变成了这个样子：

看到我们的工程里面多了一个spiders文件夹，里面有一个

superspider.py

文件，这个就是我们这次程序的主角。我们来看，这个可爱的小虫子刚生下来是长这个样子的：

这里呢，就简单说一下：

name- 是咱们的爬虫名字，这个主要是在运行爬虫的时候会用到。

allowed_domains- 是在scrapy自带的OffsiteMiddleware中用到的。Scrapy默认会开启OffsiteMiddleware插件，不在此允许范围内的域名就会被过滤，而不会进行爬取。

start_urls- 爬虫开始爬取的url。

parse()方法- 这个就是处理请求结果的。我们具体的爬虫逻辑大部分就是在这里写。

关于怎么快速学python，有什么方法，这个问题，想必大家都已经心中有数了，打算深入了解这个行业的朋友，可以加下小编的python学习裙:588+090+942，不管你是小白还是大牛，小编我都欢迎，不定期分享干货，包括小编自己整理的一份2018最新的python资料和0基础入门教程，欢迎初学和进阶中的小伙伴。

每天晚上20:00我都会开直播给大家分享python学习知识和路线方法，群里会不定期更新最新的教程和学习方法（进群送2018python学习教程），大家都是学习python的，或是转行，或是大学生，还有工作中想提升自己能力的python党，如果你是正

在学习python的小伙伴可以加入学习。最后祝所有程序员都能够走上人生巅峰，让代码将梦想照进现实，非常适合新手学习，有不懂的问题可以随时问我，工作不忙的时候希望可以给大家解惑。

好了，废话不多说，既然start_urls是用来做爬虫开始爬取的第一个url，那么我们就应该把这里面的数值换成达盖尔社区的地址，然后我们看一下在

parse()

里面返回的值是什么。运行方法，就是输入

$ scrapy crawl superspider

指令即可：

我们看到，这个response是一个HtmlResponse类，它里面的text属性，里面的字符串就是网页的html文件。OK，这一步结束之后，我们下一步就想办法怎样能够解析html网页了。Scrapy是提供了html对象的解析的，它有一个selector类，可以解析html，同时，里面还支持xpath语法的查找和css的查找。但是这个个人感觉不是很好用，我推荐用BeautifulSoup4库。安装方法只需要

$ pip install beautifulsoup4

。我们这里需要用这个来解析html，所以讲BeautifulSoup4导进来，在解析，然后我们就会得到一个beasutifulsoup对象。之后，我们就要在这个对象里面寻找我们需要解析的对象。

目前网页已经解析好了，下一步就是要在html文件中，找到每一个帖子的信息。我们回头来看html文件的源码，可以看到，每一个帖子其实都是在一个

tag里面，其实我们需要的东西，就是下图红色框框里面圈的

tag。

这里，我们发现，每一个帖子的链接入口，也就是

tag是有两个特性，一个是有id值，另一个是有

href

值。所以，我们要针对soup对象，调用

find_all()

方法来寻找有特定内容的所有标签。

我们得到了一个

a_list

结果，这是一个list对象，长度102。在这些数据中，有些结果是我们不要的，比如000到007位置的这几个数据，他们在网页中对应的是版规之类的帖子信息，和我们想要的东西不一样，所以，在拿到这个

a_list

数据，我们需要进行一下筛选。

筛选的过程必不可少，筛选的方法有很多种，我们这里就做的简单一点，只选取18年的帖子。为什么会是18年的帖子啊？少年你看，这一列href的值：

第二个数字“1805”，应该就是“年份+月份”。如果不信，则可以跳到比如论坛100页，看到的是16年3月份的帖子，这里面随便检查一个连接的href值，是“1603”。这就印证了我们的想法是正确的。好，按照这个筛选18年的帖子的思路，我们来筛选一下

a_list

。

看到打印的结果却是是18年的帖子。但是目前的href并不是帖子真正的url。真正的url应该长这个样子

所以，我们这里得进行拼接。对比上面的url，我们目前只有后半部分，前半部分其实是社区网站的root url。那么我们在settings.py文件里面添加一个

ROOT_URL

变量，并将这个变量导入到我们的spider中即可。代码就变成了这样。为了方便，咱们还可以把帖子的id，也就是

.html

前面的那个数字也摘出来，方便日后使用。

目前为止，我们拿到了帖子的id和帖子的url。我们的最终目的是要下载图片，所以，我们得让爬虫去按照帖子的url去爬取他们。爬虫需要进入第二层。这里，我们需要使用

yield

函数，调用

scrapy.Request

方法，传入一个callback，在callback中做解析。

现在我们已经进入了每一个帖子的内部，我们现在还没有拿到的信息有帖子的标题和帖子的图片。还是和parse()的步骤一样，这个时候，我们就该分析帖子的html文件了。

我们先找标题。看到html文件中，标题对应的是一个

标签。

那这就简单了，我们只需要找到所有的

标签，然后看标题是第几个就好。接下来是图片了。每个帖子用的图床都不一样，所以图片部分，我们先来看一下结构：

大概就是这两种，我们看到，图片的标签是

，关键点就在

type=image

上面，所以我们尝试着看看能不能根据这个来找到图片的地址。

我们简单测试一下，看看运行效果：

完全没有问题，看着好爽。这时候，我们看结果，会发现，我们抓取到的image，会有一两个的图床是不一样的。

打开也会看到这个图片，里面的内容也和其他的图片不一样，并且这个图片不是我们想要的。所以，这里我们得做一下过滤。我这里的方法就是要从找到的

image_list

里面，把少数图床不一样的图片url给过滤掉。一般看来，都是找到的第一个图片不是我们想要的，所以我们这里只是判断一下第一个和第二个是否一样就可以。

这样打印出来的结果就没有问题喽。

哈哈，现在我们已经拿到了帖子的id，标题，帖子的url地址，还有帖子里面图片的url地址。离我们的目标又近了一步。我之前说过，我们的目标是要把每张图片都保存在本地，目前我们只是拿到了每张图片的url。所以，我们需要把图片都下载下载下来。

其实，当拿到图片的URL进行访问的时候，通过http返回的数据，虽然是字符串的格式，但是只要将这些字符串保存成指定的图片格式，我们在本地就可以按照图片的解析来打开。这里，我们拿到帖子的

image_list

，就可以在yield出一层请求，这就是爬虫的第三层爬取了。

同时，在第三层爬虫里面，我们还需要将访问回来的图片保存到本地目录。那么代码就长这个样子：

在上面第二次爬取函数的最后，有个地方需要注意一下，就是上图中红色框框圈出来的地方。这里需要加上

dont_filter=True

。否则就会被Scrapy给过滤掉。因为图床的地址，并未在我们刚开始的

allow_domain

里面。加上这个就可以正常访问了。

这样运行一遍，我们的本地目录里面就会有保存好的下载照片了。

我们还有个问题，就是我们需要将每个帖子的信息（ id，title，url，和 image ）都保存到本地的数据库中。这个该怎么做？

别慌，这个其实很简单。

首先，我们得针对每个帖子，建立一个Scrapy的item。需要在items.py里面编写代码：

写好之后，我们需要在爬虫里面引入这个类，在第二层解析函数中，构建好item，最后yield出来。这里，yield出来，会交给Scrapy的

pipeline

来处理。

yield出来的item会进入到pipeline中。但是这里有个前提，就是需要将pipeline在settings.py中设置。

pipeline中我们先打印帖子的id，看看数据能不能够传入到这里

运行：

看到数据是完全可以过来的，而且在Scrapy的log中，会打印出来每一个item里面的信息。

我们如果想把数据保存到MongoDB中，这个操作就应该是在pipeline中完成的。Scrapy之所以简历pipeline就是为了针对每个item，如果有特殊的处理，就应该在这里完成。那么，我们应该首先导入

pymongo

库。然后，我们需要在pipeline的

__init__()

初始化进行连接数据库的操作。整体完成之后，pipeline应该长这个样子：

那么我们来测试一下数据是否能够存入到MongoDB中。首先，在terminal中，通过命令

$ sudo mongod

来启动MongoDB。

那么运行一下，看一下效果：

可以看到，左侧，有名为

Daguerre

的数据库，里面有名为

postTable

的表，而且我们的数据成功的写入了数据库中。数据的格式如图所展示，和我们预期的结果是一样的。

目前为止，我们完成了：从一页page中，获得所有帖子的url，然后进入每个帖子，再在帖子中，爬取每个帖子的图片，下载保存到本地，同时把帖子的信息存储到数据库中。

但是，这里你有没有发现一个问题啊？我们只爬取了第一页的数据，那如何才能爬取第二页，第三页，第N页的数据呢？

别慌，只需要简单的加几行代码即可。在我们的spider文件中的

parse()

方法地下，加一个调用自己的方法即可，只不过，传入的url得是下一页的url，所以，我们这里得拼凑出下一页的url，然后再次调用

parse()

方法即可。这里为了避免无限循环，我们设定一个最大页数

MAX_PAGES

为3，即爬取前三页的数据。

OK，这样就完事儿了，这个达盖尔旗帜的爬虫就写好了。我们运行一下瞅瞅效果：

是不是非常的酷炫？再来看看我们的运行结果：

只能说，战果累累，有图有真相。

其实，这个程序，可以加入middleware，为http请求提供一些Cookie和User-Agents来防止被网站封。同时，在settings.py文件中，我们也可以设置一下

DOWNLOAD_DELAY

来降低一下单个的访问速度，和

CONCURRENT_REQUESTS

来提升一下访问速度。

就像之前EpicScrapy1024项目里面一样。喜欢的同学，可以去借鉴那个项目代码，然后融会贯通，自成一派，爬遍天下网站，无敌是多么的寂8 寞~~~~

好啦，能看到这里说明少年你很用心，很辛苦，是一个可塑之才。

扯扯皮，我觉得学习编程最大的动力就是爱好，其实干什么事情都是。爱好能够提供无线的动力，让人元气满满的往前冲刺。代码就是要方便作者，方便大家。写出来的代码要有用处，而且不要吃灰。这样的代码才是好代码。

发表于: 2018-05-172018-05-17 15:35:25
原文链接：https://kuaibao.qq.com/s/20180517A0Z1HT00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

python大牛手把手教你用Scrapy爬达盖尔社区，超详细教程，看完秒会

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐