前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scrapy:在下载中间件中对URL进行修改

Scrapy:在下载中间件中对URL进行修改

作者头像
新码农
修改2020-12-25 11:33:55
1.4K0
修改2020-12-25 11:33:55
举报
文章被收录于专栏:新码农博客新码农博客

导读

在scrapy中对请求URL进行处理。

  • 问题描述:

用scrapy进行爬虫项目时,已进入URL队列的URL失效,需要进行替换。

  • 解决方法

Scrapy可以在下载中间件中对URL进行修改。

request.url是传递到中间件的url,是只读属性,无法直接修改。

可以调用_set_url方法,为request对象赋予新的URL。

代码语言:txt
复制
def process_request(self, request, spider):
    old_url = request.url
    new_url = request.url.replace("str", "") + "str"
    request._set_url(new_url)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020年4月16日 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 导读
相关产品与服务
消息队列 TDMQ
消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档