从拉勾网爬的招聘数据 解析中国数据挖掘人才能挣多少钱?

缘起是因为数据挖掘入行不久,一直上拉勾网看各种公司的招聘JD,人工看一方面是时间很消耗,更严重的是抓不住重点,最近刚好入手python爬虫,试图简化这部分工作。另一方面学习爬虫之后,发现自己整天上网手动翻网页找信息这个动作很low,所以花了两天的时间连爬取带写文档。文档中同时附上github代码,各位想上手python的童鞋可以下载玩一下,(自知代码粗浅,大牛求放过~)

工具:windows7,python3.4,IDE PyCharm 4.5

Python代码:

抓取: https://github.com/lichald/python/blob/master/python34/spider

分词:https://github.com/lichald/python/blob/master/python34/wordcut

样本规模,:拉勾网20151020根据“数据挖掘”关键字可以搜索到的Jobs。工作数量450个,招聘公司318家,分布在21个城市。工作数量最多的前五名分别为北京、上海、深圳、广州、杭州(排名分先后),占工作总数的88%,基于二八法则,取这五个城市的样本作为分析基础,其他城市暂不考虑。

1.数据挖掘在哪个城市需求更加旺盛?

从总值上看,北京在数据挖掘岗位open的职位数量和公司数量上占据绝对优势,甚至超过后面4个城市的数值加和;仅就北京和上海相比,公司数量是3倍,职位数量是4倍。从公司平均招聘人数上看,北京也领先于其他城市。即使排除拉勾网base在北京中关村地利优势和3W咖啡的线下优势,北京的数值依然是遥遥领先。

2.公司如何定价员工的工作资历?

从主流数量上看,工作经历在1-5年的现在需求最旺盛,且大多数公司均会给到11-25K的价位。且对于11-15K、16-20K、21-25K三个细分档次的价位,用人单位对于1-3年工作经验的人11-15K是主流价码,优秀的人可以提升至16-20K,更优秀的再提升至21-25K;用人单位对于3-5年工作经验的人21-25K是主流价码,有经验但能力欠缺的降至16-20K,再弱一些的就降至11-15K。

还有一个非常有意思的现象是,有相当一部分企业对于“经验不限”的情况大多数也愿意给出11-15K和21-25K的价位,说明在互联网领域仍有企业是看重能力而不是资历,对于经验有相当的自由度。另外对于5-10年的人员数量非常低,排除专业猎头分的蛋糕之外,也可能说明这个行业的专家非常少,或者是企业的数据挖掘需求还远没有达到需要专家的级别。这两点结合来看,专家权威效应不明显,企业看重能力而非资历,对于这个行业的新人是利好的消息。

请注意,企业对于1年以下经验的人招聘数量和薪资认可方面都是非常低的,说明新人前1-2年先不着急跳槽,好好打好基本功,迎接之后的量质转换!

3.高薪资都存在哪些高大上的行业?

数据声明:在拉勾网上发布职位的公司一般都会贴上两个以上的标签,本文将对这些标签重复计算。例如宜信公司标签是<移动互联网·金融>,则在这两个领域分别会计数。图中移动互联网的绝对值非常高,说明移动互联网是一种主流的趋势。

移动互联网的主流薪资认可是11-25K范围,且能够容纳的人员数量非常多,说明该行业不差钱。数据服务是这行里面的默默无闻的耕耘者,有很多新兴企业,提供数据服务,也是通过高新来吸引人才。电商、O2O、文化(主要是视频)、广告、金融几个行业对数据挖掘人才需求的数量和质量相差无几。如果希望从事一份体面的数据挖掘工作,可以考虑从这些行业中来找。

4.公司处于何种阶段会需要数据挖掘?

融到钱的公司(途径包括各种轮和上市)对于数据挖掘的需求明显高于其他,早在天使轮就有体现。就成功融资的这些企业来讲,11-15K的人在AB轮时达到顶峰,说明这阶段应该是数据挖掘部门急剧膨胀的阶段,需要比较多的初级数据挖掘人员;21-25K的人员在ABCD和上市之后的需求保持持平,说明对于有能力的资深人士,需求是一直存在的,而且可能满足要求的人员较少,公司之间的流动性比较高,招聘需求一直稳定存在。

平均收入是根据人数加权得出,从中可以看出,“成功融资”、“未融资”、“不需要融资”呈依次递减的水平,在融资领域内,平均收入水平依据成熟度而显示逐步上升。

如果你是希望通过跳槽来获取更高的收入11-20K,不考虑期权的因素下,成熟度高的已成功融资、如CD轮或者上市的公司是最理想的选择,这些公司总体平均收入比较高,未来有进一步上升的潜力;如果觉得竞争太激烈,可以退而求其次,将目标放在AB轮,这些公司对此档人员的需求最高,但平均收入不一定高。(但事情一体两面,如果你选择时机得当,AB轮获得股权期权,将来成功套现,也将是一笔不小的收入)。

5.企业发展到何种规模需要数据挖掘?

对于11-15K的等级,在企业发展阶段呈现先上升后下降的趋势,其中150-500人是需求的顶峰;对于16-25K的人员,企业发展阶段是持续上升的需求,其中在50-500人阶段呈现出一个小高峰。可以理解企业在发展到150-500人之前,15K以下的数据挖掘即可满足需要,但在之后数据量的膨胀导致数据的价值陡增,对于21K以上的中高级人才产生巨大的渴求。

从人员加权平均收入来看,随着规模的增长是在不断上升的,企业的发展越大,数据挖掘越容易产生价值。

如果你热衷于数据挖掘领域创造价值,大公司将是不错的历练平台;但如果可以接受11-15K水平的初级人员,150-500人的公司将会是一个不错的跳板。

6.数据挖掘工具的运用与收入之间的关系?

数据说明:从每个网页中抓取JD说明,根据python中jieba库进行文本分词,并计算出现频次,并建立自己的分词标签字典。

数据说明:词频占比=该词词频/所有词词频。平均每个JD中出现次数=词频/JD数。在JD中,非关系型数据库、脚本语言和关系型数据库是三种主要被提及的工具,平均每个job中均会提及一次以上。说明这些是必备技能。具体取了排名前30的原始词做成云图如下。

以Hadoop为代表的非关系型数据库,以python和java为代表的语言,以SQL为代表的关系型数据库构成工具的主流。

数据说明:面积图为对应词出现的频次总数,折线图为词频/job数量的比例、代表平均每个职位描述中出现某词的频次。

从折线图上看,在6-15K、16-25K、26-100K三个阶段内,绝大多数工具需求都呈现正三角形的结构,即“小大小”的情况,可以理解为在25K以前,薪资随着工具的提升而不断提升,26K以后需要有其他非软件工具技能来获得职业生涯的突破。

从工作数量上看,hadoop、python、java的数值很高,说明获得绝大多数公司的认可,所以这三门工具是在数据挖掘领域走向人生巅峰的必备良药。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-11-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 让机器人互相学习:MIT科学家实现知识传输新方式

选自Science 作者:Matthew Huston 机器之心编译 参与:Quantum、李泽南、黄小天 在不久的将来,机器人助理会走进每个人的生活,不过前提...

297120
来自专栏高性能服务器开发

技术面试与HR谈薪资技巧

作为“生在红旗下,长在春风里”的“四有新人”(现在90后00后还有知道这个词的吗?^_^),张小方同志从毕业至今,与各路HR、HRD斗智斗勇,再加上自己的不懈努...

25430
来自专栏新智元

【世界读书日】用人工智能改变世界

【新智元导读】2016年4月23日是“世界读书日”,今天你AI了么?你的书单中,有没有加入一本人工智能类图书。不想out?跟小机器人一起来读书吧! 今年以来,人...

33260
来自专栏AI科技评论

剖析|AI可以写剧本了,能写出魔兽那样4天10亿的剧本吗?

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

47690
来自专栏恰童鞋骚年

《智能时代》读书笔记:这是最好的时代,也是最坏的时代

  看完了《硅谷之谜》之后,室友肖老板立即向我推荐了这本《智能时代》,当然他也买了,于是乎我就拿来看了。作者仍然是无所不通的吴军博士,Google早期员工之一,...

17310
来自专栏大数据文摘

大数据能消除在招聘和相关商业行为中的偏见吗?

27160
来自专栏新智元

【科大讯飞年度发布会】刘庆峰展示无监督学习成果,胡郁show脑电波控制智能家居

【新智元导读】科大讯飞2017年度发布会今天举行,科大讯飞董事长刘庆峰带来公司最新技术动态介绍:过去一年,讯飞在无监督学习和医疗上的突破成为亮点。科大讯飞执行总...

371100
来自专栏全栈数据化营销

数据分析视角:咪蒙凭什么写出那么火的文章

       写这篇文章最主要的,是想说明数据和数据分析在工作和生活中的实用性和重要性,顺便说一说我认识的咪蒙。       很早很早之前就听过关于咪蒙的各种...

44080
来自专栏大数据文摘

城市计算:让我们憧憬明天的北京

16560
来自专栏大数据文摘

60年人工智能简史

25490

扫码关注云+社区

领取腾讯云代金券