2019Kaggle最新DS&ML报告:你大爷还是你大爷!

来自:Kaggle

前言

近日,Kaggle发布了名为《2019Kaggle数据科学和机器学习概要》的报告。此报告为Kaggle对其社区的第三次年度调查,调查内容来自19717个Kaggle成员的反馈。里面有很多有意思的内容,快让我们一睹为快吧!注:报告中所有的货币金额都是美元。

先总结,再分析

1、数据科学大部分是男性,这种不平衡与前几年没有变化。

2、超过一半的数据科学家年龄不到30岁。

3、不出所料,数据科学家都受过高等教育,超过一半的人获得了高等学位。

4、超过一半的受访者拥有少于五年的编程经验,甚至一些机器学习经验。

5、美国数据科学家的薪水远远超过其他国家。

6、大多数数据科学家在小型或大型公司中工作。超过一半的公司是机器学习新手。

7、本地开发环境是数据科学家执行其工作最常见的方式。

8、近四分之一的专业数据科学家还没有采用云计算。

9、TensorFlow和Keras仍然是占主导地位的深度学习框架。

10、美国在机器学习和云计算产品上的投入远远超过世界其他国家。

11、常规的算法,如线性回归和决策树,虽然不如RNN、CNN等复杂和强大,但它们仍然占主导地位。

12、与去年相比,谷歌Cloud AutoML的使用量几乎翻了一番。

1、数据科学家简介

▍性别

数据科学家的性别差异仍然很大,84%的用户是男性。美国的性别差距略小,为79%,而日本略高,为90%。无论在哪个地区,结果都是相对一致的。

▍年龄

千禧一代主导着数据科学,25-29岁是最常见的年龄段。在印度,这个数字甚至更年轻,41%的人是19-24岁。然而,各个年龄段的成年人都在探索数据科学,所有受访者中有18%的人年龄在40岁或40岁以上。

▍国家

来自美国和印度的受访者数量最多。其次是巴西和俄罗斯。

教育

▍高等教育

仅就在职数据科学家而言,超过70%的受访者拥有学士以上学位,其中大多数(约52%)拥有硕士学位。虽然19%的受访者拥有博士学位,但这一比例因国家而异。德国拥有博士学位的受访者比例最高,为38%,而印度的比例最低,不到5%。

超过99.5%的数据科学家在高中毕业后继续深造。

▍终身学习

超过70%的数据科学家说他们通过阅读博客来学习。使用Kaggle论坛在Kaggle用户中也很受欢迎,超过65%的用户使用该论坛。还有许多其他的回答,但有一件事是肯定的:绝大多数数据科学家仍在学习;只有约2%的受访者表示他们不使用任何媒体来提高他们的数据科学技能。

学无止境,不断充电!

数据科学和机器学习经验

全球数据科学家由同等数量的新手和经验丰富的老手组成。最常见的(33%)是有3-5年的工作经验。大约三分之一的人工作经验少于3年,另外三分之一的人工作经验超过5年。

花在学习代码上的时间

机器学习的正态分布较少。虽然大多数人有超过一年的经验,但35%的人仍处于使用机器学习的头两年。大约6%的人有超过10年的机器学习经验。

花在学习机器学习上的时间

就业

▍Pay

我们询问了数据科学家关于他们的工资、雇主类型以及他们如何度过这段时光的。结果因国家而异,特别是在Pay方面。

美国数据科学家的平均工资高于其他国家,其次是德国和日本。另一方面,印度的工资较低,近20%的印度受访者年收入不到1000美元。

那些在美国被雇佣为数据科学家的人属于我们调查中使用的最高等级的范围。大多数人的收入在10万到20万美元之间。

时间

▍时间花费

作为一名数据科学家,其最常见的职责是什么? 与复杂的机器学习相比,超过75%的人建议理解和分析数据是最常见的。也许这就解释了为什么Kagglers能够在每次新比赛的第一个小时内创造出如此多的EDA内核!超过一半的受访者提到了原型设计和机器学习实验。

▍使用数据科学的公司

我们向数据科学家询问了他们工作过公司的更多信息:员工人数、团队规模,以及这些公司是如何采用机器学习实践的。

公司规模(员工人数)

▍数据科学团队

数据科学团队的规模各不相同,但有25%的团队成员在20人以上。结合较低的范围,我们看到超过40%的人在少于5人的团队中工作。

在目前被雇佣为数据科学家的用户中,4%的人表示他们的团队规模为零。这些受访者要么没有把自己算在内,要么数据科学只是他们职责的一部分。

数据科学团队(员工人数)

▍企业机器学习的应用

结合其他问题,机器学习正变得越来越流行。超过30%的用户说他们公司最近开始使用机器学习方法,17%的用户说他们正在探索机器学习方法。自2018年以来,在拥有完善机器学习方法的公司工作的数据科学家比例增加了11%。

▍支出

从全球来看,多数受访者(23%)根本没有把钱花在机器学习和云计算产品上。

在美国,情况就不同了,多数人(24%)在过去五年里在产品上花费了超过10万美元。只有34%的人表示自己的消费低于1000美元,而全球这一比例接近43%。

过去5年企业支出

技术

▍开发环境

最常见的分析工具是本地开发环境。其中Jupyter- Lab和它的offshoots是最常见的,83%的数据科学家经常使用它。这也在情理之中哈!

▍方法和算法

受访者觉得算法越简单越好!

天猫双十一的销售额一个三次多项式就解决了

多么返璞归真!

天猫双十一销售额三次多项式拟合

常规的算法,如线性回归和决策树,虽然不如RNN、CNN等复杂和强大,但它们仍然占主导地位,因为它们更容易理解!

至于使用的机器学习框架,数据科学家使用多种工具。超过80% 的人使用Scikit-learn,这是一个包含流行数据科学算法的Python包。TensorFlow和Keras经常结合使用,二者仍然是主流的深度学习框架。

▍企业工具

大多数专业数据科学家都在使用云计算,尽管仍有超过24%的人没有使用。AWS、谷歌云平台和Microsoft Azure是目前数据科学家使用云工具的三大首选。

▍Automated机器学习

尤其值得注意的是自去年调查以来Google Cloud AutoML的增长。 总体而言,使用这个机器学习平台的受访者数量几乎翻了一番,美国数据科学家的增长速度与此类似。

来自:https://www.kaggle.com/

—End—

量化投资与机器学习微信公众号,是业内垂直于QuantMFECST、AI等专业的主流量化自媒体。公众号拥有来自公募、私募、券商、银行、海外等众多圈内18W+关注者。每日发布行业前沿研究成果和最新量化资讯。

本文分享自微信公众号 - 量化投资与机器学习(Lhtz_Jqxx)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

当博弈论遇上机器学习:一文读懂相关理论

「博弈论」这个词可能对于一些仅仅致力于机器学习前沿算法的人并不算熟悉。其实,有意无意的,博弈论的思想一直存在于很多机器学习的探索过程中,不管是经典的 SVM,还...

20520
来自专栏Datawhale专栏

【必读】2019年深度学习自然语言处理最新十大发展趋势, 附报告下载

【导读】自然语言处理在深度学习浪潮下取得了巨大的发展,FloydHub 博客上Cathal Horan介绍了自然语言处理的10大发展趋势,是了解NLP发展的非常...

13020
来自专栏Datawhale专栏

周志华:“深”为什么重要,以及还有什么深的网络

IJCAI 2019 在中国澳门隆重召开,南京大学周志华教授进行特邀大会演讲,演讲主题是《Deep Learning: Why deep and is it o...

8030
来自专栏腾讯高校合作

腾讯人工智能师资培训班(西安站)通知

为推动中国人工智能行业的发展,促进专业人才培养,以及推进人工智能领域一级学科建设,联盟联合腾讯公司定于2019年10-11月期间在华北、华南、华东、西北四大区...

23020
来自专栏贾志刚-OpenCV学堂

深入理解GBDT回归算法

Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习...

17020
来自专栏磐创AI技术团队的专栏

自然语言处理中注意力机制综述 | 文末福利

近些年来,注意力机制一直频繁的出现在目之所及的文献或者博文中,可见在nlp中算得上是个相当流行的概念,事实也证明其在nlp领域散发出不小得作用。这几年的顶会pa...

9120
来自专栏大数据技术栈

贝叶斯算法-简易入门

推论过程:P(A∩B) = P(A|B) * P(B) = P(B|A) * P(A)

7020
来自专栏SAMshare

NLP 的四大技术图谱,带你系统设计学习路径

自然语言处理很多时候都是一门综合性的学问,它远远不止机器学习算法。相比图像或语音,文本的变化更加复杂,例如从预处理来看,NLP 就要求我们根据对数据的理解定制一...

15650
来自专栏SAMshare

MLK | 一文理清深度学习循环神经网络

在开始讲循环神经网络之前,我们可以简单来回顾一下前向神经网络的知识点,因为这一块的知识是有一些互通的呢(请戳《一文理清 深度学习前馈神经网络》)。

9140
来自专栏机器之心

计算机视觉入门大全:基础概念、运行原理、应用案例详解

「机器能够模拟人类视觉系统」的幻想已经过时了。自 1960 年代第一批学术论文出现以来,计算机视觉已经走了很远,现代系统已经出现,且它们可以集成到移动应用中。

12520

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励