腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

未闻Code

专栏作者

581

文章

1058775

阅读量

92

订阅数

一日一技：在Scrapy中如何拼接URL Query参数？

网站爬虫 scrapy url 字符串

我们知道，在使用Requests发起GET请求时，可以通过params参数来传递URL参数，让Requests在背后帮你把URL拼接完整。例如下面这段代码：

2023-09-11

3450

一日一技：Scrapy最新版不兼容scrapy_redis的问题

分布式爬虫 scrapy redis 产品经理

有不少同学在写爬虫时，会使用Scrapy + scrapy_redis实现分布式爬虫。不过scrapy_redis最近几年更新已经越来越少，有一种廉颇老矣的感觉。Scrapy的很多更新，scrapy_redis已经跟不上了。

2023-08-21

4151

一日一技：用一个奇技淫巧把字符串转成特定类型

scrapy eval exec int

我们有时候可能会需要把一个字符串转换成对应的类型。例如，把'123'转换为int类型的123；或者把'3.14'转成浮点数3.14。

2022-10-27

3270

一日一技：谁说 Scrapy 不能爬 HTTP/2?

scrapy http 爬虫 https go

之前有一位爬虫大佬写了一篇文章，说 HTTP/2协议天然就能防大部分的爬虫。Python 无论是 requests 还是 Scrapy 都不支持 HTTP/2协议。

2021-10-19

1.1K0

未闻Code·知识星球周报总结（五）

云数据库 Redis 网络安全 scrapy 验证码 python

如果download middleware中响应状态异常时，需要进行验证码处理，其中可能包含下载验证图片，向验证码接口或本地服务发送请求获取验证结果，带着验证结果向目标验证地址发送请求，向上次响应状态异常的URL重新发送请求等许多操作。因为scrapy是异步的，如果这里的各种请求用requests完成的话，同步操作会影响scrapy的速度，那么如何在download middleware中使用scrapy.request完成所有操作呢？或者有其他更好的方案来解决scrapy中过验证的操作（因为觉得上边在download middleware各种请求太繁琐了）？

2021-10-19

1.1K0

未闻Code·知识星球周报总结（七）

php 爬虫 http scrapy 云数据库 Redis

1. 看数据量。数据量小，数据放在内存里面；数据量中等，数据放在基于内存的数据库里面；数据量特别大，数据放在硬盘里面。

2021-10-19

7860

未闻Code·知识星球周报总结（六）

php scrapy http python 云数据库 Redis

之前在知识星球上有人问如下找出连续子序列的最大和，这样算是不是很慢？哪里可以优化呢？

2021-10-19

5130

一日一技：为什么 Scrapy 启动 A 爬虫，B 爬虫会自动启动？

爬虫 python scrapy 编程算法

他在一个 Scrapy 项目里面，有两个爬虫 A 和 B，他使用命令scrapy crawl B想启动 B 爬虫，但是发现 A 爬虫也自动运行了。

2021-09-29

6000

【粉丝投稿】Aiohttp 与 Scrapy 如何绕过 JA3指纹反爬机制

scrapy github git 开源 https

前几天观摩k大破解JA3的文章有感，可惜里面的JA3破解的库还是老掉牙的requests，现在我看到了肯定是想办法改成基于asyncio的库啊。这样的话，在scrapy里面启用AsyncioReactor也能继续复用这个算法，不至于阻塞事件循环。

2021-09-09

2K0

一日二技：MongoDB与 Scrapy 的小技巧各一个

爬虫编程算法 scrapy mongodb ide

我们知道，如果想给 MongoDB 的一条文档增加一个字段，我们可以使用update_one方法：

2021-09-09

3180

一日一技：如何正确在 PyCharm 中调试 Scrapy 爬虫？

scrapy ide 爬虫 python

最近有不少同学在粉丝群里面问，如何调试Scrapy 爬虫。有些人不知道如何让 Scrapy 爬虫进入调试模式；还有一些人不知道怎么单步调试。

2021-06-23

1.9K0

一日一技：Scrapy 如何正确 Post 发送 JSON 数据

json 官方文档 scrapy http php

我们知道，HTTP请求的 POST 方式，提交上去的数据有很多种格式。例如JSON/form-data/x-www-form-urlencoded等等。我们在 Postman 的 POST 请求里面，可以看到这些数据格式，如下图所示：

2021-06-23

2.6K0

超强反爬虫方案！Requests 什么的通通爬不了（文末抽奖）

scrapy 爬虫 http https nginx

上一篇文章再见 HTTP 1.1，怎样把网站升级成 HTTP 2？介绍了如何升级网站到 HTTP/2.0，但是实际上并没有显式地声明禁用 HTTP 1.x 的请求。

2021-06-23

1.5K0

一日一技：如何正确使用 Scrapy 自带的 FilesPipeline？

scrapy python tcp/ip http 爬虫

Scrapy自带的 FilesPipeline和ImagesPipeline用来下载图片和文件非常方便，根据它的官方文档[1]说明，我们可以很容易地开启这两个 Pipeline。

2021-01-05

2.3K0

在Scrapy中如何使用aiohttp？

scrapy 爬虫 tcp/ip http

当我们从一些代理IP供应商购买代理IP时，他们可能是提供一个网址供我们查询当前可用的代理IP。我们周期性访问这个网址，拿到最新的IP，再分给爬虫使用。

2020-07-16

6.3K0

一个Scrapy项目下的多个爬虫如何同时运行？

爬虫 scrapy python

此时，这个命令行窗口在爬虫结束之前，会一直有数据流动，无法再输入新的命令。如果要运行另一个爬虫，必须另外开一个命令行窗口。

2020-07-16

2.5K0

从零开发一个爬虫框架——Tinepeas

scrapy 爬虫编程算法 http api

Scrapy 是一个非常优秀的爬虫框架，为了向 Scrapy 致敬，也为了让大家更好地理解 Scrapy 的工作原理，我们自己模仿 Scrapy 的数据流，写一个爬虫框架。

2020-05-14

8000

一篇文章理解Python异步编程的基本原理

编程算法 python scrapy http

未闻 Code 已经发布过很多篇关于异步爬虫与异步编程的文章，最近有读者希望我能深入介绍一下 asyncio 是如何通过单线程单进程实现并发效果的。以及异步代码是不是能在所有方面都代替同步代码。

2020-02-19

1K1

为 aiohttp 爬虫注入灵魂

爬虫 python scrapy php

听说过异步爬虫的同学，应该或多或少听说过aiohttp这个库。它通过 Python 自带的async/await实现了异步爬虫。

2019-12-25

9740

一日一技：从 Scrapy 学习模块导入技巧

python scrapy 编程算法

但是如果各位同学看过 Scrapy 的settings.py文件，就会发现里面会通过字符串的方式来指定 pipeline 和 middleware，例如：

2019-10-28

5530

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态