数据科学人才: 如何顺藤摸瓜提高你的竞争力

摘要

基于一项针对620多位数据专家的调查研究,我们发现数据科学技能分为三个分支:行业知识背景(本文特指商业),技术/编程和数学/统计。这项研究将影响目前数据科学家,即将成长为数据科学家和招聘者。

数据科学是从数据中提取信息的能力。普遍认为三个主要技能将有助于提升数据科学能力。它们是:行业知识背景(商业上为商业头脑),技术/编程,数学/统计技能。

在这项数据科学研究中,我们测试数据科学家们对25项不同的数据科学技能的熟练程度(见图1)。我们把这25个技能划分到五个领域:行业、技术、编程、数学、统计及建模。

通过因子分析做维数减少

虽然我们可能人为把25个数据技能划分到这五个领域,但是我们还可以看看数据能告诉我们什么。为此,我使用了因子分析法。因子分析是个数据精简技术,当你的数据集中有很多很多变量,希望适当减少变量个数的时候使用。通常,因子分析检查多个变量间的统计关系(比如,相关性),并尝试用较少的变量(因子)来呈现和解释这些相关性。这些精简过的因子(变量)即被用于解释你研究的现象。

因子分析的结果呈现在矩阵表格里。因子矩阵是个N×M表格(N=原始变量个数,M=潜在因子个数)。因子矩阵的元素代表各个变量和潜在因子之间的回归系数(如相关系数)。这些元素(或因子载荷)代表了变量和各个潜在因子之间的关系强度。因子分析结果将告诉我们两件事情:

1. 因子的个数

2. 哪些变量能通过因子很好地表现

结论

因子分析的使用在本质上是探索性的分析,即,对数据不预先定义其结构。25个技能之间的实际关系模式推动了模型的结果。虽然为能最好地描述数据,需要人为决定了因子个数,但是因子个数的选择也要基于这个模型结果。当前的因子分析的目标是用尽可能少的因子解释这25个技能之间的关系。为此,我有几个借助特征值来决定因子个数(因子分析的输出结果)的经验法则。特征值代表了每个因子计算出的公共方差所占的百分比。第一个经验法则是基于特征值大于总体(1.0)的个数,另外一种方法是画图标记(称为散点图)25个特征值来确定一个明显的断裂点。

图2中可以看出第三、第四 个特征值之间有明显的断裂点。因此,我选择使用三个因子来解释这25个技能之间的关系。三个因子可以对25个数据技能熟练程度的公共方差的62%进行解释。

基于三因子分析方法,因子模型矩阵很容易理解,25个数据技能熟练程度评级的因子分析模型矩阵见表1。

表1中用不同颜色标记出的是每行的最大值,这三个因子名的命名是基于这些较大的值。比如,许多数学和统计方面的技能在因子1这一列值很高,那么我就标记此列为数学/统计。同样的方法分别标记技术/编程和行业。

通过可视化的方法揭示数据科学的结构

你可以将这三个因子想象成三维空间里的坐标轴(x, y, z)。通过使用数值将25个数据技能分布在空间里,你可以将这三个因子视觉化,如图三所呈现。图中的每一个点代表了一个具体的数据科学技能。而每一种技能用不同的颜色来代表与它有所联系的领域。数学/统计由绿色表示,商业由黄色表示,技术/编程由蓝色表示。此外,为了使读者能在三维角度来看这张图,我将点与面相连,平面上的点代表了空间点的z值。

你可以看到这25个数据科学技能是怎样聚集成三个不同的群体的,每个群体代表了一个技能领域。有少数技能在多个因子中有高输入值,这些技能通过多种色彩表示出来了,包括产品设计(有较高的商业和技术/编程的输入值),数据管理(有较高的技术/编程和数学/统计的输入值),自然语言处理和文本挖掘(有较高的技术/编程和数学/统计的输入值)。

总结

尽管数据科学是由许多不同领域的技能构成的,数据科学技能可以分为三个大领域:学科相关专业知识(在本文特指商业知识),技术/编程,以及数学/统计。通过将25个不同的数据科学技能进行因子分析和排序,可以揭示出一个三维的解决方法。

这个结果对于数据人才和招聘者都有帮助。如果你是一个数据方面的人才,你拥有什么样的数据技能呢?我们的结果显示,在三个技能领域内,在一个领域拥有专业知识的数据人才往往在这个领域其他有相关的技能。因此,我建议你首先了解自己的才能是什么。如果你有很强的数学/统计背景,你可以考虑修读那个技能领域的课程。如果你已经有很强的统计技能和统计思维能力,学习相关的技能(如机器学习)会比学习其他技能(如前端编程)简单。 如此,就可以顺藤摸瓜提高本身的竞争力。

如果你是一个招聘者,你的公司能否成功取决于你能否将候选人的技能与职位要求相匹配。有许多不同的技能都可以成为数学/统计和技术/编程领域内的部分。你要确保理解候选人拥有的特定技能。你可以使用表2所列举的技能作为评估候选人技能的起点。

原作者 | Bob Hayes

来源 | Intetix

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2016-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

NEC开发了深度学习自动优化技术、更易于提高识别精度

近日,NEC宣布开发了更易于提高识别精度的深度学习自动优化技术。 以往进行深度学习时,很难基于神经网络构造(注1)进行调整,所以无法在整个网络进行最优化的学习,...

2096
来自专栏机器之心

解读 | UC Berkeley 教育学家与心理学家联合提出关于人类好奇心的推理分析

机器之心原创 作者:Jashua Chou 参与:Qintong Wu、Nurhachu Null 好奇心,作为这篇论文的主题,是相当有趣的。它与内在动机的相关...

2656
来自专栏新智元

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)

这是 Quora 的最新节目,针对特定话题进行系列的问答。如果你不了解 Quora,可以把它看作美国版的知乎,不过里面大咖云集,奥巴马、Elon Musk、Bi...

2995
来自专栏深度学习与数据挖掘实战

干货|专访ImageNet冠军颜水成团队,如何将比赛成果在企业中落地?

2017 年 7 月 26 日,计算机视觉顶会 CVPR 2017 同期举行的 “超越 ILSVRC” Workshop 上,宣布计算机视觉乃至整个人工智能发展...

3492
来自专栏机器之心

Yoshua Bengio首次中国演讲:深度学习通往人类水平AI的挑战

11 月 7 日,Yoshua Bengio 受邀来到北京参加第二十届「二十一世纪的计算」国际学术研讨会。会上以及随后受邀前往清华时,他给出了题为「深度学习通往...

752
来自专栏ATYUN订阅号

机器学习的核心:优化的简介

优化是几乎所有机器学习和统计技术的核心。在本文中,我们讨论最流行的机器学习和统计建模方法背后的核心优化框架。通常,数据科学(DS)和机器学习(ML)的新手通常被...

1142
来自专栏AI科技评论

腾讯 AI Lab 主任张潼博士:机器学习里的优化问题

AI 科技评论按:日前,在由上海财经大学交叉科学研究院(RIIS)主办,杉数科技有限公司协办的「现代运筹学发展讨论会」上,腾讯 AI Lab(腾讯人工智能实验室...

3829
来自专栏腾讯AI实验室的专栏

把照片唱给你听 :腾讯 AI Lab 国际领先技术邀你「趣」体验

感谢阅读腾讯AI Lab微信号第10篇文章。本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展,并邀请大家测试一个趣味Demo。我们还会分享在多媒体内...

64012
来自专栏编程

图像识别的原理、过程、应用前景,精华篇!

图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别...

1.5K10
来自专栏机器之心

学界 | 不设目标也能通关「马里奥」的AI算法,全靠好奇心学习

通过与任务匹配的奖励函数最大化来训练智能体策略。对于智能体来说,奖励是外在的,并特定于它们定义的环境。只有奖励函数密集且定义良好时,多数的 RL 才得以成功实现...

971

扫码关注云+社区

领取腾讯云代金券