python3.6之抓取LaGou网爬虫职位详解

因公众号编辑器对代码不友好

在手机上阅读体验不佳

建议前往文末我的知乎文章链接

目标:抓取LaGou网爬虫职位,下载于数据库MongoDB,并可视化于pycharm。

我们采用:requests(获取)——MongoDB——PyCharm可视化

废话不多说,先上结果与代码:

前言:

安装PyMongo(pip install pymongo),这是Python操作MongoDB的驱动程序

:抓取页面,如图

现重点讲解代码四个部分:

一:MongoDB

这将建立连接到默认主机(localhost)和端口(27017)

mongodb的详细功用可前往官网

二:真实的urls

异步加载中,真实的url并非https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?labelWords=&fromSearch=true&suginput=,真正的url需要我们通过抓包获取,流程如图:

所以我们得出真实url:https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0

三:请求方法post(之前的文章都是get)

通过抓包我们可以看出拉钩网的请求方法是post,所以我们要加入请求表单form_data

:请求头(headers)

每个网站的请求头都会不一样,但爬取的网站,都有例子,大家初期,跟着选就行,如图:

大家可以对比下我第四篇知乎的请求头

总结:

数据库是学习Python爬虫的必经之路,大家记得安装哦

MongoDB、pycharm可视化的安装,我都会在知乎上发表

下一篇文章,将学习使用函数实现LaGou翻页

有不清楚的地方,大家可以留言,点赞,我看到了,会第一时间回复你

近来考试与课程设计,很久没有更新,还望大家谅解

知乎链接:https://www.zhihu.com/people/lei-an-15/posts

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180107G0LFAQ00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区