首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python scrapy第二篇

说到爬虫,是时候放出这张图了。

(穿有衣服的……别想太歪。)

……吭吭。17年的时候,年少轻狂,

拿着Python,

干了一些,

比较敏感的事。

快两年了。

我。

又要干一些……

敏感的事。

然而这次,我用的不是requests自己造轮子。

使用scrapy。

算上上次scrapy的简单介绍,这应该是第二篇学习scrapy的笔记了。所以就叫scrapy第二篇吧!以后我文章命名,也清晰点。

那,我们就开始吧。

——————————

首先和上次的一样。我们需要新建一个scrapy项目:

scrapy startproject pachong

然后新建一个爬虫

scrapy genspider spiderimg “url”

今天我们严格按照scrapy规章制度来走。

去pachong目录修改我们的item,使得有一个存放img目录的管道。

恩……就写一行代码,其他的scrapy默认。

——————————

然后写我们的爬虫

自己写的,也就四行代码。

1实例化一个item

2通过xpath获取imgurl

3复制给我们刚刚定义的item

4返回item

——————————

然后修改我们的管道,使他可以下载我们提交的imgurl

这里默认是没有导入ImagePipeline的,所以我们需要自己导入。

然后这个PachongPipeling类继承了ImagePipeline这个类。

再通过get_media_requests这个方法下载。

——————————

修改我们的配置,开启图片下载,并添加下载路径。

配置文件就是settints.py这个看文件名应该能懂。

——————————

然后运行。

scrapy runspider spiderimg.py

然后……

然后就,

就可以,

吭吭,仅做学术讨论。

自学scrapy,文章有很多疏漏,

还请谅解,

恩,就在这学的scrapy。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190105G0YCGS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券