我想抓取一个网站,这是必要的访问,以查看网页。我可以爬客网页,但如何抓取登录保护网页?如果有人共享一些步骤来配置或跳过身份验证机制来使用storm爬虫爬行页面,那将是非常棒的。
先谢谢你。
发布于 2021-04-12 12:43:19
可以在拓扑配置中设置以下键及其相应值
http.basicauth.user http.basicauth.password
参见配置方面的WIKI页面
https://stackoverflow.com/questions/67057804
相似问题