前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一日一技:谁说 Scrapy 不能爬 HTTP/2?

一日一技:谁说 Scrapy 不能爬 HTTP/2?

作者头像
青南
发布2021-10-19 15:32:33
1.1K0
发布2021-10-19 15:32:33
举报
文章被收录于专栏:未闻Code未闻Code

之前有一位爬虫大佬写了一篇文章,说 HTTP/2协议天然就能防大部分的爬虫。Python 无论是 requests 还是 Scrapy 都不支持 HTTP/2协议。

Go + HTTP/2[1]这个网站可以检测你是否使用 HTTP/2协议进行请求。当我们直接使用浏览器访问的时候,页面长这样:

注意红框中的文字

但如果我们直接使用 Scrapy 访问这个页面,并打印源代码,返回的 HTML 长这样:

注意红框中的文字

这样看起来,似乎Scrapy 确实不支持HTTP/2协议?

但我为什么总是一直强调要读官方文档,不要去搜索一些垃圾博客呢。因为官方文档里面,已经明确告诉你Scrapy 不仅原生支持 HTTP/2,而且只需要改一个配置就可以了:Settings — Scrapy 2.5.0 documentation[2]

更换下载器句柄就可以了

请大家注意上图中标红色方框的地方。根据它的描述,我只需要在settings.py文件中,更新下载器句柄(handlers)就可以了。我们来测试一下。把下面这段代码直接复制到 Scrapy 爬虫中:

代码语言:javascript
复制
DOWNLOAD_HANDLERS = {
    'https': 'scrapy.core.downloader.handlers.http2.H2DownloadHandler',
}

改好以后,重新运行爬虫,打印出来的源代码如下图所示:

可以看到,不需要安装任何额外的库。Scrapy 原生就支持 HTTP/2了。

参考文献

[1] Go + HTTP/2: https://http2.golang.org/

[2] Settings — Scrapy 2.5.0 documentation: https://docs.scrapy.org/en/latest/topics/settings.html#download-handlers-base

END

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未闻Code 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档