requests_html
是 requests
的作者 基于 requests
和 pyppeteer
以及一些其他网页爬虫库的整合
关于 pyppeteer
是什么就不多赘述了
requests_html
通过方法 render()
调用的pyppeteer
与浏览器进行交互,
在requests_html
官方文档中,并没有找到有关如何修改浏览器Headers的内容,
比如,修改user-agent
但在网上可以找到
# 创建session对象
session = requests_html.HTMLSession(browser_args=['--no-sandbox','--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3809.100 Safari/537.36"'])
https://www.cnblogs.com/ruhai/p/11318133.html https://blog.csdn.net/github_38358734/article/details/81738757
另一方面,不仅仅想要修改user-agent
,还需要修改Headers 中的 Referer
这个,pyppeteer
中是实现了的,page.setExtraHTTPHeaders({})
但requests_html
中 是把这部分舍弃掉了
所以想要通过requests_html
修改 Referer
还需要改下 requests_html
的源码
改三个地方,需要修改Referer的话,调用render()
时,传入referer即可
requests_html