使用 R 语言从拉勾网看数据挖掘岗位现状

因为毕业后想从事数据挖掘相关的职业,但对该行业的需求不太了解,网上资料太多查看花时间且抓不住重点,所以爬取了拉勾网上 900 多条相关的岗位共计 30 万字的职位描述的数据进行了相关的分析。分析结果主要想回答下面两个问题:

1、目前数据挖掘岗位的现状 ? 2、如果要从事数据挖掘行业,需要具备哪些技能 ?

分析时间:2017 年 2 月

工具:RStudio, Number, R (爬取和分析使用的都是 R )

分析的代码和爬取到的数据:https://github.com/edvardHua/JobRequirementAnalysis

数据挖掘岗位现状

分两块描述,第一块是基本的统计数据,包括数据挖掘在那个城市需求最旺盛,对应聘人员的学历要求,行业的分布和公司的财务状况。第二块围绕着薪酬做相关性的分析,主要是工作资历与薪酬之间的关系,以及行业与薪酬之间的关系。

首先可以看到大部分数据挖掘岗位都分布在北京,上海,深圳和杭州,北京该岗位需求相当旺盛,差不多占据了一半的职位数量。从左边的饼图可以看出,大部分数据挖掘岗位对应聘者的学历要求为至少是本科以上。

左边的条形图显示大部分的数据挖掘岗位都分布在移动互联网领域,另外,右边的饼图可以看出,上市公司和成长型 B 轮及 D 轮以上的公司对数据挖掘岗位的需求最大。

从左边这张图可以看出,对于有 1-3 年经验的应聘者,企业的普遍工资在 16-20 K 左右的水平,而对于 3-5 年工作经验的应聘者,则普遍的工资在 21-25 K,另外有意思的是,许多职位对工作经验没有要求,但是也愿意给出不错的薪酬。从右边的图可以看出,移动互联网领域职位数量多且工资相对较高,若想找份高薪的工作,在移动互联网行业做数据挖掘是个不错的选择。

从事数据挖掘行业,需要具备哪些技能组合

将爬取到的全部职位描述汇总在一起后,总共有差不多 30 万字的职位描述。这里首先使用 jiebaR 中文分词库对文本进行分析和挖掘。在挖掘之前,首先需要简历自己的词料库,我使用的词料库是从网上搜查得到,感兴趣可点击此处(https://github.com/edvardHua/JobRequirementAnalysis/blob/master/corpus/collected.dict.utf8)查询。

首先使用 jiebaR 库对 30 万字的职业描述进行关键字(TF_IDF 算法)提取,结果如下:

"数据挖掘" "算法" "数据" "经验" "熟悉" "机器学习" "优先"

关键字高度概括了企业对应聘者的需求,拿这些词造句的话,应该可以理解为:

「我们需要找一位熟悉数据结构和机器挖掘算法的人。另外,具备经验者优先。」

随后,再根据自己收集的语料库进行词频统计,做成云图,结果如下:

从词云和术语出现次数可以看出,想要从事数据挖掘,除了要熟悉基本的编程语言和框架外( Python,Hadoop,Java,Spark,R ),统计学也被很多企业所提及。

项目结构

地址:https://github.com/edvardHua/JobRequirementAnalysis

使用到的 R 包:ggplot2, jiebaR, wordcloud2

项目结构:

├── data │├── position-\ 1:63 拉勾网的原始数据,为 json 格式 ├── cache │ ├── position_after_cleaning.csv 预处理后的数据,直接读取既可使用 │ ├── ... ├── corpus │ ├── collected.dict.utf8 数据挖掘领域相关的语料库 │ ├── ... ├── graphs │ ├── ... ├── src │ ├── curl.R 爬虫 │ ├── clean.R 数据清洗 │ ├── func.R 公共函数 │ └── statistics.R 统计结果可视化 │ ├── mining.R 关键字提取和词频统计 └── tests └── test.R

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

使用 R 语言从拉勾网看数据挖掘岗位现状

因为毕业后想从事数据挖掘相关的职业,但对该行业的需求不太了解,网上资料太多查看花时间且抓不住重点,所以爬取了拉勾网上 900 多条相关的岗位共计 30 万字的...

2564
来自专栏瓜大三哥

UVM模型(六)之uvm_component与uvm_object乐闻

UVM模型(六)之uvm_component与uvm_object乐闻 为什么UVM中会分成uvm_component与uvm_object两大类呢? ...

2129
来自专栏DT数据侠

信息过载叫苦不迭?机器学习教你如何将文本化繁为简

你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文数据侠就使用Python对...

610
来自专栏玉树芝兰

文科生如何高效学数据科学?

看似无边无际、高深难懂而又时刻更新的数据科学知识,该怎样学才更高效呢?希望读过本文后,你能获得一些帮助。

681
来自专栏AI科技评论

观点 | 不需要敲代码就可以开发深度学习应用?我们来探个究竟

AI 科技评论按:在深度学习仍然需要不少的数学和计算机编程能力的现在,如果突然出现了一个不需要写任何公式和代码的深度学习应用开发平台,你会是什么感觉?震惊?鄙夷...

982
来自专栏CSDN技术头条

R vs. Python,数据分析中谁与争锋?

R和Python两者谁更适合数据分析领域?在某些特定情况下谁会更有优势?还是一个天生在各方面都比另一个更好? 当我们想要选择一种编程语言进行数据分析时,相信大多...

1786
来自专栏AI研习社

不需要敲代码就可以开发深度学习应用?我们来探个究竟

AI 研习社按:在深度学习仍然需要不少的数学和计算机编程能力的现在,如果突然出现了一个不需要写任何公式和代码的深度学习应用开发平台,你会是什么感觉?震惊?鄙夷?...

462
来自专栏我分享我快乐

扁平人物头像绘制教程

前言:学生们在学习ps软件的过程中非常的认真与努力,所以对于软件的使用可以说已经很熟练了,可以为什么当我们给学生安排一些原创设计需求的时候,学生却有种无从下手的...

3357
来自专栏数据小魔方

Python数据抓取与可视化实战——网易云课堂人工智能与大数据板块课程实战

本篇内容数据抓取对象为网易云课堂人工智能与大数据板块课程信息,使用的工具是urllib+postman,因为直接构建的POST抓取的josn数据包,所以数据抓取...

3864
来自专栏算法+

学习图像算法阶段性总结 (附一键修图Demo) 2016.04.19更新demo

今天特别感慨,自己从决定研究图像处理,势必要做出一键修图算法。 经历了,三个多月的书籍积累,三个多月的算法调整以及优化。 人是一种奇怪的动物,当你做不到的时候,...

2775

扫描关注云+社区