最近爬虫脚本调整了好多次,昨天试了试调整后的脚本,爬虫抓取了Boos App 部分人热能职位,效果还行。现在写下大概过程。
这一次对爬虫代码的修改其实主要是getQueneURL和start_crawl函数函数的处理。(建议小伙伴可以通过类似 git -diff 的方式来对文件进行分析)
getQueneURL函数如果获取不到网页不做任何处理直接返回Null,这部分的处理交给theading处理那一块负责。
图片看不清的话,老规矩分享公众号的任意一篇文章到朋友圈,将其截图后发到公众号,获取源码。
Python 部分资料陆续抓取完,有其它需求的欢迎留言告知。还有其它
附送,分布式爬虫视频教程。
https://pan.baidu.com/s/1q_WtUohOWCSbiQMb1GK4uA
密码:125a
领取专属 10元无门槛券
私享最新 技术干货