如何进阶成为一名数据科学家?

作者 | AAAlvin

来源 | https://github.com/AAAlvin/Project_Folder/

数据科学家 : 21世纪最性感的工作,可以说是每个数据分析师的最终目标,既然拿到的Stack Overflow调查问卷中含有数据分析师和数据科学家的数据,那本次报告的任务就是横向对比一下数据分析师与数据科学家,让大家对自己的未来的技能树选择能有多一点的数据支持。

假设问题

  • 目前处在或者即将处在数据分析师职位的朋友应该打磨自己的哪项技能?
  • 数据分析师为自己未来的数据科学家之路应该如何扩充自己的技能树?

问题解析

本次报告尝试横向对比数据分析师与数据科学家,将在两个职业的比较中回答假设问题,这样做的好处是使两种职业更饱满的展现在读者面前,因为问题的针对性比较强,对比的过程中也可以很清晰的解答问题,所以本次报告以这样的形式展现出来。

数据分析师与数据科学家

上图中的语言与学历均以占比从高到低排列

薪资

首先拿到这个数据,自然要从大家最关心的工资说起:

首先可以看出来,两个职业在接触编程人员中都有中等的工资水平,数据科学家更是挤进了前十,总的来说是相当不错的薪资水平了。

更细致的来看数据分析师与数据科学家的工资情况,科学家工资不管是均值还是中位数都稳超分析师,且高工资处分析师的离散程度远远大于科学家,也就是说数据科学家在高工资处的分布集中度更高。

性别

对比前一章报告:Stack Overflow 用户画像分析,不难看出,这两个职业的女性从业率都超过了编程行业的女性(4.8%)均值,且数据科学家甚至达到了两倍的样子,可以说是对女性非常友好的编程相关职业了,其中的原因有可能是很多专业是学习数学或者统计的朋友跨行业自学编程来到数据行业。

从不同性别的薪资来看,首先对比其他职业可以看出这两个行业男女工资基本上已经持平,跟其他行业中男性比女性工资高很多的情况形成强烈对比;随后从两个职业的对比中可以看出,从数据分析师进阶到数据科学家,两个职业女性的工资上涨幅度远超男性,女性工资均值和中位数上涨了50%和70%,而男性上涨只有45%和16%。

编程语言

输出了数据分析师与数据科学家使用语言蝴蝶图,将目前比较火的R和Python标亮显示,从中可以得出的东西还是非常多的:

首先看数据分析师这边,基本都是使用SQL和R,其次是使用EXCEL中的VBA,而python使用的情况只有不到6%,这和我现在了解到的数据分析师的情况大致相符,基本是多用SQL做数据提取工作,小数据使用EXCEL,数据量比较大的才考虑使用R或python,目前从数据看来,使用R的占了比较大的比重。

再从数据科学家这边看,基本上使用python的比例激增到40%,大家应当熟知Python是机器学习的利器,多看中预测结果的准确性,而R多用作统计推断的语言,所以从语言使用占比来说,在科学家这边,机器学习一定是一个绕不开的技能,不然Python激增这么多很难有合理的解释。

不难看出的还有一点就是,SQL在科学家中基本不在使用了,而VBA却仍有不小的比例,看来简单的取数据的工作要么科学家已经交给分析师来做,或者自己动手使用python爬虫,而小量的数据仍有可能使用VBA进行前期分析。

目前来看处在分析师职位的朋友应当吧更多的精力放在SQL和R上,然后尽力不要丢掉EXCEL,毕竟这个是基础技能而且还非常耐用,然后在为数据科学家做准备的时候,Python是一定要深入学习的语言,同时深刻了解业务和机器学习,这些应该是从该数据集中展现出来的方向。

学历

学历柱状图最明显的一点莫过于数据科学家的博士学位明显高于数据分析师和其他职业,可以说是门槛超高的一个职业了,大部分的科学家都接受了相当好的教育,本科以上的学历高达91%。

数据分析师的学历基本属于平均偏上的水平,可以看到在硕士学位处35%的占比也很高的。

综上数据分析师的学历门槛比较高,而科学家的门槛更高,分析师准备转行科学家的时候,磨练自己技术的同时还需要加强自己的专业知识也就是提升学历,边上班研究业务知识,边申请在职研究生或者博士课程也是可以选在的方向。

编程时间相关

从两个行业在不同编程年龄的柱状图来看,编程时间在6年以下的以数据分析师居多,而接触编程语言超过6年后,当熟练掌握了算法和业务之后转行科学家的比例不断上升,看来6年之内分析师们是需要为自己的数据科学家做好技能规划。

从上班使用电脑时间来看,基本两者相差不大,都属于业界平均水平,只不过在科学家在5-8小时的时候稍微多一点,超过12小时时候稍微少一点。

总结与结论

数据分析师对自己目前的规划与未来的计划:

  • 目前扎实掌握SQL与VBA,掌握业务相关知识与R语言,尝试对数据库有更多的了解;
  • 技能树深化Python的学习,机器学习或深度学习需要提上日程;
  • 有条件的情况下尝试在职研究生,学习统计学知识,掌握更全面、系统的理论知识;

本文分享自微信公众号 - Python数据科学(Python_Spiderman)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python专栏

Python 面试问答 Top 25

Python 是一种解释型,交互式,面向对象的高级编程语言。和别的一些使用标点符号的语言不同,Python使用了大量的英语单词作为关键字,因而具有很好的可读性。...

14230
来自专栏Python中文社区

回归树的原理及Python实现

提到回归树,相信大家应该都不会觉得陌生(不陌生你点进来干嘛[捂脸]),大名鼎鼎的 GBDT 算法就是用回归树组合而成的。本文就回归树的基本原理进行讲解,并手把手...

11820
来自专栏FreeBuf

你知道吗?图形验证码可能导致服务器崩溃

图片验证码是为了防止恶意破解密码、刷票、论坛灌水等才出现的,但是你有没有想过,你的图形验证码竟然可能导致服务器的崩溃?

14330
来自专栏FreeBuf

自己动手打造工具系列之自动刷新简历

话说搞安全的大佬们都非常忙,自己在一步一步成长中无暇顾及其他琐碎的事情,比如让猎头注意到各位大佬。如何让猎头和大厂注意到自己呢?第一、提高自己在整个行业的曝光度...

17750
来自专栏FreeBuf

利用基础数据对某IDC大量网站被黑进行关联分析

*本文作者:feiniao,本文属 FreeBuf 原创奖励计划,未经许可禁止转载。

36040
来自专栏机器之心

这些Python代码技巧,你肯定还不知道

人们还经常把 Python 笑称为「可执行伪码(executable pseudocode)」。但是,当你可以编写这样的代码时,很难去反驳这种言论:

13930
来自专栏极客慕白的成长之路

Python中使用Xpath

XPath介绍: 是什么? 全称为XML Path Language 一种小型的查询语言 说道XPath是门语言,不得不说它所具备的优点: 1) 可在XM...

44420
来自专栏机器之心

业界 | 2018最流行的编程语言Top 3(附薪资情况)

由于现在的编程语言种类繁多,决定用哪种语言来完成任务成了一项艰巨的任务。在决定「最佳」语言之前,你应该对包括个人喜好和备选语言在内的多个因素进行评估。

17920
来自专栏机器之心

比Python还好用的Go语言要出2.0了,你想怎么设计?

在昨天的 Go contributor 年度峰会上,与会者对错误处理和泛型的设计草案有了一个初步的了解。Go 2 的开发项目是去年宣布的,今天谷歌公布了这一语言...

16010
来自专栏机器之心

从统计到概率,入门者都能用Python试验的机器学习基础

要学习统计,就不可避免得先了解概率问题。概率涉及诸多公式和理论,容易让人迷失其中,但它在工作和日常生活中都具有重要作用。先前我们已经讨论过描述性统计中的一些基本...

12010

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励