在做数据科学的,都是些什么人?能赚多少钱?他们是怎样进入这个行业的,工作中会用到什么方法、哪些工具,遇到怎样的困难?
为了解答这些问题,全球最大的数据科学家社区Kaggle面向他们的100万名注册用户,发起了像居委会一样的调查,从年薪多少到喜欢听哪个播客,都问了个遍。
他们收到了16000份调查结果,其中463份来自中国。
Kaggle把调结果梳理成一份交互式报告,量子位编译整理了其中要点:
有很多方法可以研究有哪些人在从事数据工作,但我们首先从一些人口统计学信息入手来了解从事数据科学的人的职业和背景:
平均而言,调查受访者都在30岁左右,但不同国家的数值各有不同。例如,印度的平均年龄比澳大利亚年轻9岁。
中国的受访者平均年龄是25岁。与全球情况相比,中国受访者的年龄分布更加集中,40岁以上的人数很少。
从调查结果来看,全职工作的受访者占65.7%,正在找工作的占12.7%。
中国受访者中,全职工作的只有53.5%,17%的人处于没有工作也没在找工作的状态。(不知道是不是因为没有设置“学生”这个选项……)
虽然我们对“数据科学家”的定义是使用代码分析数据的人,但我们发现有很多职位头衔都被归入数据科学家之列。例如,在伊朗和马来西亚,从事数据科学工作的最流行的头衔是“科学家或研究员”。
而在中国,数据科学工作者最流行的头衔是“机器学习工程师”,其次是“数据分析师”和“数据科学家”。
虽然在我们的调查中,“薪酬和福利”不如“职业发展机会”重要,但最好还是能了解合理的薪酬。全球数据科学工作者的平均年薪是55441美元。
在美国,数据科学工作者平均年薪最高,达到11万美元。
机器学习工程师的平均年薪更是高达13.5万美元。
在中国,受访的数据科学工作者的平均年薪只有29835美元,不过样本量较少,只有66人。
整体来看,数据科学从业人员中的硕士比例最高。
但工资最高的(15万至20万美元和20万美元以上区间)获得博士学位的比例同样高。
一个典型的受访者是30岁,拥有硕士学位,从事数据科学家工作,年薪5.5万美元。但平均值并不能反应具体状况。
前面几个人口统计学问题只能粗浅地反映Kaggle的数据科学社区在年龄、性别、居住地、职位、薪资、经验和学历方面的多样性。
我们定义的数据科学家是“通过写代码来分析数据的人”。我们向这些人询问了他们的日常工作,以下就是一些数据:
在各个行业中,逻辑回归都是工作中最常见的数据科学方法,只有军事和安全行业是个例外,该行业使用神经网络的频率稍高。
整体而言,Python是最常使用的数据分析工具,但仍有较多的统计学家仍然钟情于R。
关系数据是各行各业中最常使用的数据类型,除了学术以及国防和安全领域,他们更多地使用文本数据。
虽然使用Git分享工作代码的比例最高,但大公司更多地使用电子邮件等文件共享软件,而非云计算技术。小公司通过云计算实现了更高的灵活性。
脏数据,我们又见面了。整体而言,脏数据似乎是数据科学领域最常见的问题。一丝不苟的数据工程师是个例外。脏数据之后,公司政策、缺乏管理和/或财务支持也是数据科学家最常遇到的问题。
仔细查看数据,你可能会发现很多行业的受访者都缺乏数据科学人才。这意味着新的数据科学家都很幸运。下面就来看看已经任职的受访者是如何走上正轨的:
当我们踏上新的职业道路时,能够了解其他人的成功经验肯定很有帮助。我们询问了数据科学从业人员的成功经验。以下就是精选出来的一些建议:
每个数据科学家对应该最先学习的语言都有自己的观点。
结果显示,只使用Python或R的人感觉他们做出了正确的选择。
但如果你问问同时使用R和Python的人,他们推荐Python的比例达到R的两倍。
数据科学是个快速变化的领域,有很多有价值的资源可以帮助你学习,并保持前沿,以便让你保持称职状态。已经从事数据科学工作的人使用Stack Overflow问答、会议和播客的频率高于新人。如果你在开发内容或开源软件,那请记住,新人更常使用官方文档和YouTube视频。
Kaggle制作的交互式报告中,还包含着更多信息。
地址:https://www.kaggle.com/surveys/2017
另外,Kaggle还放出了这份报告背后的R语言代码,供大家在这个基础上,继续挖掘信息。
R kernel地址:https://www.kaggle.com/amberthomas/kaggle-2017-survey-results
如果你只想要这份调查的数据,然后用它来做自己的分析,Kaggle也同样提供下载。
调查数据下载地址:https://www.kaggle.com/kaggle/kaggle-survey-2017