我们确定了两类主要的数据科学技能:一类是大多数受访者所拥有的稳定技能,这一类有 13 项核心技能;另一类是大多数受访者尚未拥有但想掌握的热门 / 新兴技能。请参阅我们详细的分析。
最新的 KDnuggets 投票调查问了如下两个问题:
我们根据 KDnuggets 之前的一些文章和投票调查,选出了 30 项技能。
这次投票调查总共收到了超过 1500 张投票,这是一个足够大的样本,可以做出有意义的推论。平均每个投票者报告声称其拥有 10 项技能,并希望增加或者提高 6~7 项技能。
下面的图 1 显示了关键的调查结果,x 轴表示 % 已拥有技能,显示的是第一个投票问题的答案;y 轴表示的是 % 想拥有的技能,显示的是第二个投票问题的答案。每个圆形的大小与已拥有该技能的投票者的百分比成正比,而颜色取决于“想拥有 / 已有用”的比率(>1,比率越高颜色越红;<1,比率越低颜色越蓝)。
图 1. 与数据科学相关的技能,已拥有技能 vs 想增加 / 提高技能
在这种图表中,我们注意到有两个主要的集合。
图表右侧蓝色虚线矩形为第一个集合,该集合包含超过 40% 投票者所拥有的技能,以及“想要拥有 / 已经拥有”的比率小于 1。我们称之为核心数据科学技能。它们将在表 1 中列出。
表 1:核心数据科学技能,按 % 已拥有技能降序排列。
技能 | % 已拥有 | % 想拥有 | % 想拥有 / % 已拥有 |
---|---|---|---|
Python | 71.2% | 37.1% | 0.52 |
数据可视化 | 69.0% | 25.3% | 0.37 |
批判性思维 | 66.7% | 15.5% | 0.23 |
Excel | 66.5% | 4.6% | 0.07 |
交流沟通技巧 | 65.9% | 16.5% | 0.25 |
机器学习 | 64.3% | 41.0% | 0.64 |
统计学 | 63.8% | 27.8% | 0.44 |
SQL/ 数据库代码实现 | 57.3% | 16.0% | 0.28 |
业务理解 | 57.0% | 22.2% | 0.39 |
数学 | 52.6% | 17.5% | 0.33 |
ETL - 数据准备 | 48.3% | 14.1% | 0.29 |
R | 45.1% | 19.8% | 0.44 |
Scikit-learn | 44.1% | 24.0% | 0.54 |
其中,最希望添加或提升的技能是机器学习(41%)和 Python(37%)。增长最少的是 Excel——只有 7% 的人想增加或提高他们的 Excel 技能。
图 1 左侧用红色边框标记的第二个集合,包括目前不太流行(% 已拥有技能 <30%)但正在增长的技能,“想拥有 / 已有用”的比率大于 1,请见表 2。我们将其称为热门 / 新兴数据科学技能。
表 2:热门 / 新兴数据科学技能,按“想拥有 / 已拥有”降序排列。
技能 | % 已拥有 | % 想拥有 | % 想拥有 / % 已拥有 |
---|---|---|---|
Pytorch | 7.0% | 29.6% | 4.26 |
Scala | 4.2% | 13.3% | 3.14 |
其他大数据工具 | 8.9% | 27.4% | 3.08 |
TensorFlow | 19.1% | 46.4% | 2.44 |
Apache Spark | 16.0% | 34.6% | 2.16 |
Hadoop | 10.9% | 22.7% | 2.08 |
深度学习 | 25.9% | 49.6% | 1.92 |
No-SQL 数据库 | 14.0% | 23.2% | 1.65 |
自然语言处理 - 文本处理 | 25.0% | 33.8% | 1.35 |
Kaggle | 14.5% | 18.4% | 1.27 |
非结构化数据 | 22.3% | 27.7% | 1.24 |
有趣的是,尽管有人认为 Hadoop 正在走下坡路,但在这次投票调查中,想学习 Hadoop 的人比已经知道它的人还多,所以 Hadoop 有可能仍然会越来越受欢迎。尽管 Julia 的“想拥有 / 已拥有”的比率为 3.4,但我们仍然没有将它包括在热门 / 新兴技能中,因为只有 2% 的投票者选择了它,因此它并不具备足够的支持。
其余的技能,如 XGBoost、软件工程、Java、MATLAB、SAS 只被 10%~30% 的投票者拥有,但没有增长:“想拥有 / 已拥有”的比率小于 1。
表 3:其他数据科学技能,按 % 已拥有的百分比递减
技能 | % 已拥有 | % 想拥有 | % 想拥有 /% 已拥有 |
---|---|---|---|
软件工程 | 25.7% | 15.2% | 0.59 |
XGBoost | 22.3% | 19.0% | 0.85 |
Java | 15.1% | 7.7% | 0.51 |
SAS | 12.7% | 7.2% | 0.57 |
MATLAB | 10.9% | 7.9% | 0.73 |
Julia | 2.0% | 6.9% | 3.44 |
小假面是关于投票调查的更多细节。图 2 按 % 已拥有进行降序排列。
图 2:KDnuggets 读者拥有的数据科学技能
图 3 显示了读者想要增加或提高的技能,以及他们所拥有的技能。
图 3:KDnuggets 读者想要增加或提高的数据科学技能(红色)和已拥有的数据科学技能(蓝色)。
我们看到,现有的和有意向的数据科学家想要添加的顶级技能是深度学习、TensorFlow、机器学习和 Python。
投票调查还询问了就业类型:
区域分布为:
作者介绍:
Gregory Piatetsky-Shapiro 博士是 KDnuggets 的总裁,也是大数据、数据挖掘和数据科学领域的领军人物。他是数据挖掘和数据科学领先研究会议 KDD 的共同创始人,也是 ACM SIGKDD 的共同创始人和前任主席。他还是两家初创公司的首席科学家。
本文最初发布于 KDnuggets 网站,经 KDnuggets 官方授权由 InfoQ 中文站翻译并分享。
原文链接:
Which Data Science Skills are core and which are hot/emerging ones?
领取专属 10元无门槛券
私享最新 技术干货