摘要:数据平台 Kaggle 近日发布了2017 机器学习及数据科学调查报告,针对最受欢迎的编程语言、不同国家数据科学家的平均年龄、不同国家的平均年薪等进行深度调查。此次调查共收到16000余份回复。
正文:
2017年,我们首次进行了全行业调查,以全面了解数据科学和机器学习的生态。我们收到了超过16,000份回复,我们调查了”谁在处理数据?”,"各行业机器学习的最前沿发生了什么?”,”新进入这一领域的数据科学家如何取得突破?”等问题并获得了大量反馈信息。本文分享了我们的一些重要发现,其中的摘要内容如下:
我们将从年龄、就业状况、薪资待遇几个方面对这个群体做一个基本了解:
⒈你的年龄?
从全球范围来看,本次调查对象的平均年龄在30岁左右。在不同的国家,数值会有所差异,加拿大接受问卷调查的平均年龄为34岁,而中国的机器学习从业者年龄的中位数是25岁。
⒉ 就业状况如何?
全球全职工作者为 65.7% ,其中中国为 53.% ,美国占比较高,达70.9%。
⒊你工作中的头衔是什么?
数据科学领域可涵盖的工作非常多,包括机器学习工程师、数据分析师、数据科学家、软件开发人员、数据挖掘人员等。其中,数据科学家人数占比最高,达24.4%。软件开发人员/工程师位居第二,但人数仅占12.3%,数据分析师紧跟其后,以11.3%位列第三。
⒋你的全职年薪是多少?
数据科学人员的年薪中位数为$55,441。在中国,数据科学家的年薪中位数为$29,835,美国则高达$110,000。
⒌你的最高学历是什么?
在数据科学领域工作的人中学历比例最高的是硕士,但平均薪酬最高的人是博士(150K - 20万美元和20万美元)。
就中国而言,硕士学位在总体占比为40.5%,博士仅11.2%,本科学位从业人数则高达39.5%,与硕士从业人数持平。
而美国,硕士学位只有44.5%,博士学位高达20.7%,本科从业者占比也高达26.5%。
Ⅱ、数据科学家在工作中做什么?
数据科学家被定义为“通过编写代码来分析数据”。他们日常的工作是什么的,下面是我们发现的一些亮点:
⒈在工作中使用哪些数据科学方法?
逻辑回归是所有行业最常用的数据科学方法,除了军事和安全领域(注:这些领域神经网络使用更多一些)。决策树、随机森林、神经网络、贝叶斯分别排名第2到第5位。
⒉工作中最常用的工具?
Python是数据科学家最常用的数据分析工具,R紧随其后,事实上,更多的统计分析人员更偏爱R。
⒊工作中使用什么类型的数据?
关系型数据是最常用的数据类型,学术研究者和国防安全领域则更青睐文本和图像。
⒋工作中主要遇到的问题是什么?
调查结果显示,脏数据是数据科学领域工作人员最常遇到的问题。此外,缺乏数据科学技能、缺乏有效管理和资金支持也是困扰他们的常见问题。
你可能注意到了,目前许多行业的受访者表示他们在组织中非常缺乏数据科学人才,这对于想要进入这一领域的小伙伴无疑是个好消息,那么如何才能进入这一领域呢,请继续看我们的调查报告。
当你开始一条新的职业道路时,了解其他人如何成功是很有帮助的。我们调查了数据科学行业从业者他们是如何做到的,以下是来自他们的一些建议:
⒈你会推荐新的数据科学家首先学什么语言?
使用Python或R的人都觉得他们的选择没错,但是如果你让他们推荐的话,推荐Python的可能性是R的两倍。
⒉你使用哪些数据科学学习资源?
数据科学是个变化极快的领域,业内人员需要不断更新知识体系,才可以在业内保持一定地位,不被时代淘汰。Kaggle、Stack Overflow Q&A、Conferences 和 Podcasts 是已从业者经常使用的学习平台。
⒊哪里找到你需要的数据?
没有数据就没有数据科学。当谈到学习数据科学技能时,知道如何找到用于实践的数据集是非常有价值的。调查显示,数据聚合平台是人们最常用获取数据的途径,其次是谷歌搜索引擎。
⒋你如何寻找或找到工作?
在数据科学领域,联系直接联系企业招聘人员或建立你的社交人脉是进入这一领域的最佳途径。
END.
PPV课小组翻译