用python对拉勾网5000条招聘进行数据分析

本文由作者:sevenry 原创投稿

声明:本文所公布代码及数据仅作学习用,若别有用途则后果自行承担。

根据@种瓜从拉勾网爬下来的数据文件

爬虫部分源代码:https://github.com/wwj718/jobSpider/blob/master/lagou/spiders/lagou_spider.py

python数据分析 代码:

https://github.com/sevenry/my_data/upload/master/160813

利用pandas库对其进行一定的处理,用于分析全国总的职位需求情况以及对招聘人员的需求分布等,可视化部分利用matplotlib库。

首先该csv包含5000条数据,每一条数据包含21项内容。如图:

利用pandas打开文件后,对数据源做了以下处理:

1workYear栏有不同数据表达同样结果,如‘1-3’‘1-3可以统一更改为‘1-3

2createTimecompanyLogo两项数据内容没太大意义,删除;

3)考虑到不同工作性质在薪资上有较大不同,因此去除兼职和实习部分,本文仅针对全职工作需求进行分析。

大家找工作一般都会首先关注城市,来看一下全国招聘情况按城市排名,总共涉及62个城市,此处仅给出前十名城市的情况:

可以看出北京遥遥领先,其后上海,深圳,广州三个城市相近,杭州略低一些屈居第五;接下来的五个城市则分别是:成都,武汉,南京,长沙和郑州;将数据转化为占总招聘数量的比例,统计发现:北京占据29.85%的招聘量,而排名前五的城市共计占据79.57%的招聘量,排名前10的城市则共计占据89.04%的招聘量。如果走互联网这一块,果然还是要去一线城市及某宝大本营呀~

那么如果我们对招聘数目最多的前十名城市,来查看一下它们的薪水情况。

公司抛出的工资值都是一个区段,因此我们给出各个城市的公司薪资最低值平均值和薪资最高值平均值这两项,可以看出北京的平均薪酬依旧是最诱惑人心的,其后分别是深圳,上海,杭州,南京四个城市。招聘人数位居第三的广州在平均薪酬上要远逊于深圳上海等地,位列第六;而长沙成都武汉相对持平,最高薪酬平均值约为10k,最低薪酬平均值为6k多。

下面来看一下这十个城市分别对人才的学历要求情况:

由于博士和高中生需求非常低,认为在并不太影响调查结果的基础上忽略了这两项因素。可以明显看出,北京的本科生需求比例最高,而广州的本科生需求量相较北京,上海,杭州,深圳等市低很多,同时大专生需求比例非常高。这可能是造成广州薪酬相较其他一线城市较低的一个原因,为了验证这一想法,我们来查看一下这些城市对不同学历所给的最低薪酬平均值情况。

北京在其他几项学历中依旧是最高,然而在硕士生中,上海开出的工资则最高,广州的工资最低,事实上广州开出的硕士工资低于本科生工资……怎么说呢,大概广州就是不太喜欢硕士生吧…… 当然南京和郑州甚至都没有硕士这一项,所以如果正在读硕士的你,或者学历是硕士的你,知道要如何筛选城市了吧2333。。

同样只考虑全职工作情况,这十个城市对人才工作经验的要求情况比较中,忽略数量非常少的1年以下和10年以上这两类:

可以看出,除北京外,对1-3年工作经验人才的需求都相对较高,而北京对3-5年工作经验的人才需求比例远高于其他城市,这应该也造成了北京薪酬平均值较高的一个因素。同样我们作出各个城市对不同工作经验给出的平均薪酬,参考的同样是公司开的最低薪酬。

可以看出,薪资水平确实是随着经验而更加值钱的,广州针对各项经验需求所开出的薪资水平都不算高…… 对工作3-5年经验开出的工资几乎与北京1-3年经验工资相同。

北京作为中国的互联网第一大城市当之无愧,来看下工作地点的分布情况:

基本都在朝阳区和海淀区;

按公司规模来看:

15-50人和50-150人的公司居多;

学历要求上:

本科学历要求需求量非常之高,硕士需求量很低;

工作经验上:

最青睐35年的工作人员,其次是1-3年的;

职业领域上:

后端开发比例非常高,其次是销售,运营,前段开发,市场开发等领域。

我们还可以查看一下北京的薪资水平按照学历及工作经验二次分类后的情况:

总算把城市部分说完,下面简单说下全国招聘按职位领域分布的情况:

后端开发领域位列第一,占据19.18%;其次是销售:11.50%;运营:9.98%;市场营销:7.54%;视觉设计:6.24%。从整体情况来看,排名前五共计占据54.44%的招聘内容,前十名占据79.66%,前十五名占据89.8%,前二十名占据94.6%。可见在互联网工作中挑选合适的职位也很有必要啊~

我们来看一下前十个热门职位所给出的薪酬情况:

后端开发不仅需求量高,工资给的也是最高,而相对的销售领域虽然需求量高,但是薪资水平较低,不过可能该领域主要是靠提成吧~

或许有人要关心这些行业在不同城市的薪酬水平,考虑到图片显示因素,仅放出这十个领域在北京,上海,广州,深圳与杭州五所城市的薪资水平:

可以看出,几乎在所有岗位中,北京上海深圳三个城市给出的工资都更高一些,特别是北京;然而在市场影响和销售领域中,几所城市差别不大,北京也没有表现出更加良好的趋势。这一点大约说明如果只是看基础工资的话,这两个行业的就业人员未必一定要去北上深。

从学历需求来看全国职位需求量:

从高到低分别是本科,大专和学历不限,硕士,博士,高中要求。其中对本科生的需求量为45.20%,对大专生的需求为36.5%,而硕士仅有百分之0.98%,博士仅有0.12%;可见在互联网这一块目前对学历的要求并不高呀~

从工作经验来看全国职位需求量:

1-3年工资经验人才的需求量最高,占总数的38.18%3-5年经验占据2508%;不限要求的占据20.32%;而5-10年经验的需求为6.48%,应届毕业生的需求量仅为3.3%,一年以下的为2%。这样的数据显示,如果是在网上投简历的话,可能工作个一年之后比较容易获得成功吧。

最后简单关注下实习情况,由于实习的工资相对来说都较低,我们在此不将薪酬作为评价体系列入考虑之中,主要关注城市和职位领域这两项。

按照城市排名来看,前五名与总体情况差别不大,有趣的是,西安和天津分别位于67两位,而成都压根就没有实习招聘……

按照领域来看,则是运营需求量最高,其次是后端开发,编辑,人力资源,视觉设计,前段开发等,与整体趋势也有所不同。

最后的最后,有朋友表示想了解一下上海的薪资水平,po一个上海薪资跟学历及工作经验要求分类的图。

最后祝大家都能找到心满意足的工作呀!

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-08-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

拆解滴滴大脑 叶杰平谈出行领域算法技术

近日,滴滴研究院副院长叶杰平在上海一场内部分享会上详细解读了滴滴大脑,这是外部首次窥探到较为完整的滴滴算法世界,并且一直潜水的产品“九霄”也首次露出真容。 滴...

3226
来自专栏数据猿

聚信立创始人兼CEO罗皓:互金领域基于社交网络分析的风险控制才刚刚开始

数据猿导读 基于社交网络分析的风险控制才刚刚开始,随着互联网金融的快速发展,团伙欺诈也日趋专业化同时迅速膨胀,社交网络分析结合大数据处理技术必将是应对新形势下欺...

2875
来自专栏镁客网

如何用AI把旅游变得更加轻松惬意?这里有一些很好的建议

1665
来自专栏BestSDK

大数据剖析:算得出数字,算不出人性

这是个“数据为王”的时代,数据失真却远比我们想象的要严重得多。不可否认,互联网的野蛮生长,少不了大数据为文化、生产提供参考和指南,大数据也的确为避免盲目出击立下...

2193
来自专栏VRPinea

2017年 VRPinea厂商年终回访报告(十六):火柴全景VR

2516
来自专栏大数据文摘

2014上半年国内安卓App数据报告

1575
来自专栏PPV课数据科学社区

【职业】大数据岗位更看重学历还是工作经验?

? 回答这个问题之前还是让我们看一段PPV课网站上的一段真实对话: Q:请问从事大数据这行,硕士学历有必要么? A:oh,如果有条件,最好可以上到硕士,但不是...

30810
来自专栏企鹅号快讯

研究人员开发了一种基于神经网络的模型,用于评估沿海社区对飓风的弹性

超过风速:一项预测飓风影响的新措施 研究人员开发了一种基于神经网络的模型,用于评估沿海社区对飓风的弹性 在2017年席卷大西洋盆地的六次主要飓风对沿海社区的脆弱...

19510
来自专栏CDA数据分析师

大数据解析 | “直播竞答”类产品爆红背后究竟有什么秘密?

? 最近一段时间小草莓被身边这个学习的氛围所感染,也入了“直播答题”这个坑。话说,自从入坑以来,自己就像一个18线小明星一样,每天忙着赶场答题,占据公司网速最...

1865
来自专栏数据的力量

一个杯子的八种卖法:这营销方案绝了!

一家红酒公司为了达到更高的销售额,请了产品策划公司来进行包装策划。在做定价策略策划时,该公司与策划者发生了激烈争论,原因是定价太高了,每款产品都比原来高了将近一...

562

扫描关注云+社区