文章/答案/技术大牛

发布

Python scrapy第二篇

文章来源：企鹅号 - 无斜杠不币圈

说到爬虫，是时候放出这张图了。

（穿有衣服的……别想太歪。）

……吭吭。17年的时候，年少轻狂，

拿着Python，

干了一些，

比较敏感的事。

快两年了。

我。

又要干一些……

敏感的事。

然而这次，我用的不是requests自己造轮子。

使用scrapy。

算上上次scrapy的简单介绍，这应该是第二篇学习scrapy的笔记了。所以就叫scrapy第二篇吧！以后我文章命名，也清晰点。

那，我们就开始吧。

——————————

首先和上次的一样。我们需要新建一个scrapy项目：

scrapy startproject pachong

然后新建一个爬虫

scrapy genspider spiderimg “url”

今天我们严格按照scrapy规章制度来走。

去pachong目录修改我们的item，使得有一个存放img目录的管道。

恩……就写一行代码，其他的scrapy默认。

——————————

然后写我们的爬虫

自己写的，也就四行代码。

1实例化一个item

2通过xpath获取imgurl

3复制给我们刚刚定义的item

4返回item

——————————

然后修改我们的管道，使他可以下载我们提交的imgurl

这里默认是没有导入ImagePipeline的，所以我们需要自己导入。

然后这个PachongPipeling类继承了ImagePipeline这个类。

再通过get_media_requests这个方法下载。

——————————

修改我们的配置，开启图片下载，并添加下载路径。

配置文件就是settints.py这个看文件名应该能懂。

——————————

然后运行。

scrapy runspider spiderimg.py

然后……

然后就，

就可以，

吭吭，仅做学术讨论。

自学scrapy，文章有很多疏漏，

还请谅解，

恩，就在这学的scrapy。

发表于: 2019-01-052019-01-05 18:17:08
原文链接：https://kuaibao.qq.com/s/20190105G0YCGS00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Python scrapy第二篇

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐