首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏作者
581
文章
1058775
阅读量
92
订阅数
一日一技:在Scrapy中如何拼接URL Query参数?
我们知道,在使用Requests发起GET请求时,可以通过params参数来传递URL参数,让Requests在背后帮你把URL拼接完整。例如下面这段代码:
青南
2023-09-11
3450
一日一技:Scrapy最新版不兼容scrapy_redis的问题
有不少同学在写爬虫时,会使用Scrapy + scrapy_redis实现分布式爬虫。不过scrapy_redis最近几年更新已经越来越少,有一种廉颇老矣的感觉。Scrapy的很多更新,scrapy_redis已经跟不上了。
青南
2023-08-21
4151
一日一技:用一个奇技淫巧把字符串转成特定类型
我们有时候可能会需要把一个字符串转换成对应的类型。例如,把'123'转换为int类型的123;或者把'3.14'转成浮点数3.14。
青南
2022-10-27
3270
一日一技:谁说 Scrapy 不能爬 HTTP/2?
之前有一位爬虫大佬写了一篇文章,说 HTTP/2协议天然就能防大部分的爬虫。Python 无论是 requests 还是 Scrapy 都不支持 HTTP/2协议。
青南
2021-10-19
1.1K0
未闻Code·知识星球周报总结(五)
如果download middleware中响应状态异常时,需要进行验证码处理,其中可能包含下载验证图片,向验证码接口或本地服务发送请求获取验证结果,带着验证结果向目标验证地址发送请求,向上次响应状态异常的URL重新发送请求等许多操作。因为scrapy是异步的,如果这里的各种请求用requests完成的话,同步操作会影响scrapy的速度,那么如何在download middleware中使用scrapy.request完成所有操作呢?或者有其他更好的方案来解决scrapy中过验证的操作(因为觉得上边在download middleware各种请求太繁琐了)?
青南
2021-10-19
1.1K0
未闻Code·知识星球周报总结(七)
1. 看数据量。数据量小,数据放在内存里面;数据量中等,数据放在基于内存的数据库里面;数据量特别大,数据放在硬盘里面。
青南
2021-10-19
7860
未闻Code·知识星球周报总结(六)
之前在知识星球上有人问如下找出连续子序列的最大和,这样算是不是很慢?哪里可以优化呢?
青南
2021-10-19
5130
一日一技:为什么 Scrapy 启动 A 爬虫,B 爬虫会自动启动?
他在一个 Scrapy 项目里面,有两个爬虫 A 和 B,他使用命令scrapy crawl B想启动 B 爬虫,但是发现 A 爬虫也自动运行了。
青南
2021-09-29
6000
【粉丝投稿】Aiohttp 与 Scrapy 如何绕过 JA3指纹反爬机制
前几天观摩k大破解JA3的文章有感,可惜里面的JA3破解的库还是老掉牙的requests, 现在我看到了肯定是想办法改成基于asyncio的库啊。这样的话,在scrapy里面启用AsyncioReactor也能继续复用这个算法,不至于阻塞事件循环。
青南
2021-09-09
2K0
一日二技:MongoDB与 Scrapy 的小技巧各一个
我们知道,如果想给 MongoDB 的一条文档增加一个字段,我们可以使用update_one方法:
青南
2021-09-09
3180
一日一技:如何正确在 PyCharm 中调试 Scrapy 爬虫?
最近有不少同学在粉丝群里面问,如何调试Scrapy 爬虫。有些人不知道如何让 Scrapy 爬虫进入调试模式;还有一些人不知道怎么单步调试。
青南
2021-06-23
1.9K0
一日一技:Scrapy 如何正确 Post 发送 JSON 数据
我们知道,HTTP请求的 POST 方式,提交上去的数据有很多种格式。例如JSON/form-data/x-www-form-urlencoded等等。我们在 Postman 的 POST 请求里面,可以看到这些数据格式,如下图所示:
青南
2021-06-23
2.6K0
超强反爬虫方案!Requests 什么的通通爬不了(文末抽奖)
上一篇文章再见 HTTP 1.1,怎样把网站升级成 HTTP 2?介绍了如何升级网站到 HTTP/2.0,但是实际上并没有显式地声明禁用 HTTP 1.x 的请求。
青南
2021-06-23
1.5K0
一日一技:如何正确使用 Scrapy 自带的 FilesPipeline?
Scrapy自带的 FilesPipeline和ImagesPipeline用来下载图片和文件非常方便,根据它的官方文档[1]说明,我们可以很容易地开启这两个 Pipeline。
青南
2021-01-05
2.3K0
在Scrapy中如何使用aiohttp?
当我们从一些代理IP供应商购买代理IP时,他们可能是提供一个网址供我们查询当前可用的代理IP。我们周期性访问这个网址,拿到最新的IP,再分给爬虫使用。
青南
2020-07-16
6.3K0
一个Scrapy项目下的多个爬虫如何同时运行?
此时,这个命令行窗口在爬虫结束之前,会一直有数据流动,无法再输入新的命令。如果要运行另一个爬虫,必须另外开一个命令行窗口。
青南
2020-07-16
2.5K0
从零开发一个爬虫框架——Tinepeas
Scrapy 是一个非常优秀的爬虫框架,为了向 Scrapy 致敬,也为了让大家更好地理解 Scrapy 的工作原理,我们自己模仿 Scrapy 的数据流,写一个爬虫框架。
青南
2020-05-14
8000
一篇文章理解Python异步编程的基本原理
未闻 Code 已经发布过很多篇关于异步爬虫与异步编程的文章,最近有读者希望我能深入介绍一下 asyncio 是如何通过单线程单进程实现并发效果的。以及异步代码是不是能在所有方面都代替同步代码。
青南
2020-02-19
1K1
为 aiohttp 爬虫注入灵魂
听说过异步爬虫的同学,应该或多或少听说过aiohttp这个库。它通过 Python 自带的async/await实现了异步爬虫。
青南
2019-12-25
9740
一日一技:从 Scrapy 学习模块导入技巧
但是如果各位同学看过 Scrapy 的settings.py文件,就会发现里面会通过字符串的方式来指定 pipeline 和 middleware,例如:
青南
2019-10-28
5530
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档