腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

新码农博客

Blog：https://www.addcoder.com/

专栏作者

87

文章

173847

阅读量

16

订阅数

Scrapy：多个爬虫同时运行

在spiders目录的同级目录下创建一个commands目录，并在该目录中创建一个crawlall.py，将scrapy源代码里的commands文件夹里的crawl.py源码复制过来，只修改run()方法即可。（文件夹下面必须要有__init__文件）

2020-12-29

1.3K0

Scrapy：log日志功能

导读 Scrapy提供了log功能，可以通过 logging 模块使用。 logging设置通过在setting.py中进行以下设置可以被用来配置logging # 默认: True，启用logging LOG_ENABLED = True # 默认: 'utf-8'，logging使用的编码 LOG_ENCODING = "utf-8" # 默认: None，在当前目录里创建logging输出文件的文件名 LOG_FILE = "name.log" # 默认: 'DEBUG'，log的最低级别 L

2020-04-17

1.3K0

Scrapy：在下载中间件中对URL进行修改

导读在scrapy中对请求URL进行处理。问题描述：用scrapy进行爬虫项目时，已进入URL队列的URL失效，需要进行替换。解决方法 Scrapy可以在下载中间件中对URL进行修改。 request.url是传递到中间件的url，是只读属性，无法直接修改。可以调用_set_url方法，为request对象赋予新的URL。 def process_request(self, request, spider): old_url = request.url new_url = requ

2020-04-17

1.4K0

Scrapy：重写start_requests方法

有时scrapy默认的start_requests无法满足我们的需求，例如分页爬取，那就要对它进行重写，添加更多操作。

2020-04-17

1.6K0

Scrapy：命令基本用法

导读 scrapy命令很多，在此整理一下。 1、全局命令 startproject genspider settings runspider shell fetch view version 2、局部命令（只在项目中使用的命令） crawl check list edit parse bench 3、详解 # 创建项目 scrapy startproject myproject # 在项目中创建新的spider文件 scrapy genspider mydomain mydomain.com # mydo

2020-04-17

6070

Scrapy：多个spider时指定pipeline

导读 Scrapy存在多个爬虫的时候如何指定对应的管道呢？ 1、在 pipeline 里判断爬虫 settings.py ITEM_PIPELINES = { "xxxx.pipelines.MyPipeline": 300, } OneSpider.py class OneSpider(scrapy.spiders.Spider): name = "one" TwoSpider.py class TwoSpider(scrapy.spiders.Spider): name = "t

2020-04-17

1.9K0

Scrapy：多个item时指定pipeline

有时，为了数据的干净清爽，我们可以定义多个item，不同的item存储不同的数据，避免数据污染。但是在pipeline对item进行操作的时候就要加上判断。

2020-04-17

2.5K0

Scrapy：常见错误整理

一般是在全局配置settings.py中设置了 DOWNLOAD_TIMEOUT，或用了代理IP等，就会出现这类报错。

2020-04-17

1K0

Scrapy：安装方法

2.scarpy需求lxml，OpenSSL，Twisted库一般系统自带，也可用以下方法安装：

2020-04-17

1.2K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态