开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python 分布式爬虫打造搜索引擎

文章来源：企鹅号 - 西说测试

最近爬虫脚本调整了好多次，昨天试了试调整后的脚本，爬虫抓取了Boos App 部分人热能职位，效果还行。现在写下大概过程。

这一次对爬虫代码的修改其实主要是getQueneURL和start_crawl函数函数的处理。（建议小伙伴可以通过类似 git -diff 的方式来对文件进行分析）

getQueneURL函数如果获取不到网页不做任何处理直接返回Null，这部分的处理交给theading处理那一块负责。

图片看不清的话，老规矩分享公众号的任意一篇文章到朋友圈，将其截图后发到公众号，获取源码。

Python 部分资料陆续抓取完，有其它需求的欢迎留言告知。还有其它

附送，分布式爬虫视频教程。

https://pan.baidu.com/s/1q_WtUohOWCSbiQMb1GK4uA

密码：125a

发表于: 2018-08-052018-08-05 17:40:36
原文链接：https://kuaibao.qq.com/s/20180805A10XZT00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群