前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >终极PK:数据分析 VS 数据挖掘 VS 数据科学家

终极PK:数据分析 VS 数据挖掘 VS 数据科学家

作者头像
石晓文
发布2020-03-06 17:04:31
1K0
发布2020-03-06 17:04:31
举报
文章被收录于专栏:小小挖掘机

一直以来有人问:“ 数据分析 VS 数据挖掘 VS 数据科学家,它们到底有什么不同?入行大数据的话该怎么选?” 估计 90% 程序员,包括一些数据相关工作的⼩伙伴,都给不出准确回答。最近整理了这张对比长图,来回答这个问题!PS. 被问次数太多了,实属无奈

概括一下,逼格满满的数据科学家人群最少,要求和限制因素也最多。适合人群更广的数据分析和数据挖掘,这两个工种的差异如下。

从要求来讲:数据挖掘偏技术,数据分析偏业务;

从能力来讲:数据挖掘需要专精技术,数据分析要求综合素质。 下面这张图清晰展示了它们发展方向间的关系。

那么入行大数据,该选数据挖掘还是数据分析呢?(这两个职业同样为公司创造价值)最重要的一个因素是:看哪个职位与自己的性格、喜好比较匹配。如果对业务、商业模式感兴趣,强项在为人处事方面,数据分析显然是优先选择。

对于多数程序员来说,数据挖掘则是更优选。因为自身性格相对内敛,喜欢钻研技术,不太喜欢天天和业务打交道,做数据挖掘是在擅长的方面发力会更顺畅。当然,下面这些情况的人做技术向的数据挖掘更有优势:

研发部⻔谋求转型的开发⼈员; 计算机相关专业以及数统相关专业毕业⼈员; 专注于从事数据相关⼯作、谋求技能提升、岗位晋升以及跨⽅向发展的人。

从目前的市场来看,数据挖掘的薪资比数据分析高一些。原因很简单,数据挖掘工程师或算法工程师有较高技术门槛,不懂模型和编程,简历关都过不了,某些情况下还需要项目和学术背景。加上大多数互联网企业都是 “先工程后分析” 的流程,数据挖掘工程师的需求更迫切,薪资也最舍得给。

较高技术门槛,也意味着入门数据挖掘并不轻松。不仅要掌握一门编程语言,如 Python /Java、C / C++ ,还需要会 Hadoop,HIVE,SQL数据库操作掌握数据挖掘和机器学习的基础知识和算法特征工程的基础知识了解统计学的时间序列模型,变量的相关系数,ROC和AUC曲线,交叉验证,主成分分析......想想就是个大的学习工程。

对急于了解大数据挖掘的你,这套硬核课程也许是及时雨。开课吧的《数据挖掘算法精讲》专题课,48 h 内免费领( 领了之后有效学习期限 7 天,抓紧看!这也为了筛选伸手党~)专题课细致解析了大厂算法工程师/数据挖掘工程师 必知必会的高频算法,知识点如下:

《数据挖掘高频算法精讲》

Part 1 数据挖掘概论与实践

1. 数据挖掘概念与技术

2. 数据挖掘算法类型

3. 密度聚类案例实践之中国城市群划分

Part 2 特征工程与模型选择 / 文本分类

1. 如何对文本数据进行预处理

2. 如何对文本统计,生成词云图

3. 如何对文本数据进行特征选择

4. 如何根据文本内容进行分类

Part 3 逻辑回归算法

1. 逻辑回归的算法原理是怎样的

2. 如何绘制逻辑回归的决策边界

3. 逻辑回归的局限,以及如何解决

4. 逻辑回归如何进行多分类

5. 怎样解决样本不均衡问题

Part 4 数据挖掘之 Decision Tree 算法 1. 《信息论》熵、联合熵和条件熵的推导

熵与 Log、概率的关系;

《信息论》— 香农;

条件熵、联合熵的推导过程; 2. 决策树算法的树流程的构造

决策树算法的树结构生长过程与特征选择

决策树算法的叶子节点个数与权重系数 3. ID 3 ( 信息增益 )

推导DT的目标函数信息增益(ID3)

g(D,A) = H(D) - H(D|A) 本质上是互信息 4. 由 ID 3 推广出来的 C4.5 和 Gini 系数

由 ID3 推广出的 C4.5 系数

由 ID3 推广出的基尼系数

5. 案例实战:利用 Python 的Scikit - learn 的 5 步建模过程(伪代码)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小小挖掘机 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档