前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬 51 匹配最适合岗位

爬 51 匹配最适合岗位

作者头像
用户6825444
发布2020-05-14 22:10:01
4670
发布2020-05-14 22:10:01
举报
文章被收录于专栏:木下学Python木下学Python

前言

在找工作时,匹配度是一个比较关键的指标,就像一个文科生在大学期间没学过任何计算机相关知识,而投了一个计算机相关岗位,那失败的概率很大,也就是匹配度很低。

小编写了一个爬虫,以 51 招聘为目标,自己设置岗位,城市,自己的技能,以自己的技能为关键词,如果关键词在招聘信息中存在的话,那就把这条招聘的 url 保存下来。

在岗位较少的情况下,或许手工浏览还可以,但在招聘有很多页时,就需要花时间一个一个查看了,这个程序的目的就是解放双手,节省时间,自动化去匹配符合自己技能的招聘,把 url 保存在 txt,可以直接方便查看,过滤掉跟自己匹配度较低的招聘。

配置文件

新建一个 txt 文本,直接改后缀为 .conf 就是配置文件了,在配置文件中写入内容:

[51job] 为配置文件的一项,这样的标题可以有多个,[] 括起来,里面是标题内容。

下面是定义的三个变量,小编取得变量名很容易看出是什么意思,job 只能写一个,因为在代码中只取第一个;skill 是小编设置的自己的技能,在招聘中,可能第一个字母是大写,可以根据自己的技能设置。

读取配置文件使用 configparser 库,get() 方法里面的 51job 就是配置文件的一个标题,读取的三个变量是以列表形式获得:

url 构造

首先我们需要构造 url,我们以 “数据分析实习+广州” “数据分析实习+深圳” 为例,对比 url:

发现画横线的不一样,是城市的编号;圈着的是岗位名称。

所以我们需要抓包,请求获得对应的城市编号,在首页经过抓包城市编号如下:

请求获得后,在经过处理,转换为以城市,编号为键值对的字典然后在请求的时候获得字典中的城市对应的编号即可:

构造页数

在打开了招聘信息的页面后,我们可以根据页面的中职位数计算有多少页需要爬取:

提取详情链接

得到总页数后,循环提取每一页的岗位的详情链接:

匹配

得到详情链接后,遍历每一条链接,从中提取任职要求,在根据自己设置的技能匹配自己的技能是否在招聘条件中,有就保存 url:

以上就是爬虫的主要流程,详细的细节可查看完整代码。

结果展示

来看看 txt:

我们打开第一个链接查看 python 关键字是否在招聘的要求技能中:

这样就可以很快的获得匹配度较为合适的招聘链接。

当然小编只设置了一个关键字,只要有一个关键字在那就保存,可以修改代码为组合这些关键字,都在才保存。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 木下学Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档