动态 | Kaggle16000份问卷揭示数据科学家平均画像:30岁,硕士学位,年薪36万

AI科技评论按,日前,Kaggle官网发布了一份关于数据科学和机器学习的调查报告,他们通过分析超过16000份相关用户的问卷调查,给出了数据科学行业从业人员的基本概况,大家在工作中使用比较多的方法以及对初入该行业的人的建议。

AI科技评论将核心内容编译如下:

为了建立对数据科学和机器学习的全面认识,Kaggle在今年首次开展了一项覆盖多个行业的调查研究。

他们收到了超过16000份回复,了解到该行业很多的相关信息,例如数据科学从业者的概括、机器学习领域的前沿研究,以及新手数据科学家如何能最好地进入这个领域。

在下面的报告中,他们分享了一些主要发现,这里面包括一些交互式可视化图,这样大家可以轻松地找到自己想知道的内容。以下是一些例子:

  • 虽然Python从整体上来说或许是最常使用的工具,不过我们的报告发现统计学家中用R语言的更多。
  • 数据科学家的平均年龄在30岁左右,但不同国家之间又略有不同。例如印度受访者的平均年龄比澳大利亚受访者要小9岁。
  • 受访者中拥有硕士学位的人占比最高,但是在薪水最高(15万美元以上)的人中,拥有博士学位的人最多。

他们在Kaggle上分享了这些完整的匿名数据集,大家可以下载、进行探索。

下载地址:https://www.kaggle.com/kaggle/kaggle-survey-2017

大家可以参与进来研究这些数据,分享自己的思路和代码,一起推进数据科学和机器学习的研究。与此同时,甚至可以赢得现金奖励。

数据科学家概况

分析这些数据科学从业人员概况的方法有很多,他们通过与这些数据科学家的工作和背景相关的统计信息入手:

年龄

调查对象的平均年龄在30岁左右,但不同国家之间又略有不同。例如印度受访者的平均年龄比澳大利亚受访者要小9岁。

在职情况

从图中可以看到全职的人最多。

职位

虽然大家经常将“数据科学家”定义为使用代码来分析数据的人,但在调查中发现大量的职位都属于数据科学领域。例如,在伊朗和马来西亚,数据科学研究领域最常见的的职位是“科学家或研究员”。

全职年薪

虽然在此次调查中,“薪酬和福利”的重要性不如“职业发展机会”,但大家最好还是要了解到合理的薪酬范围。在美国,机器学习工程师平均工资最高。

最高学历

一般来说,在从事数据科学研究的人中,研究生占比最高。但是在收入最高(15万美元—20万美元,20万美元以上)的人群中,拥有博士学位的人占比最多。

这次调查显示,年龄为30岁,拥有硕士学位,年收入约为5.5万美元的数据科学家处于平均水平。不过每个人之间的差异也很大,上面只是从表面上给出了Kaggle上数据科学社群在年龄、性别、国家、职位、薪水、工作经验和教育上的不同。

数据科学家的日常工作

数据科学家被定义为“写代码来分析数据”的人。Kaggle也调查了他们每天的工作生活情况,下面是调查中他们发现的一些亮点:

在工作中使用什么数据科学方法?

调查显示,工作中,在军事/安全领域,神经网络用的稍微多一点。除了这两个领域,Logistic回归是大家使用频率最高的数据科学方法。

使用的工作工具是什么?

Python是调查中大家最常用的数据分析工具,但从小的类别来看,统计学家使用最多的仍然是R语言。

大家使用的数据类型都是什么?

关系数据是在所有行业(除了学术和军事/安全领域)中最常使用的数据类型,学术和军事/安全领域中最常使用的数据类型是文本数据。

大家都是如何分享代码的呢?

受访者中使用Git分享代码的人占比最高,但在大公司(员工人数超过10000)使用电子邮件等方式分享代码的人更多,大家不怎么用云端传输,而小型公司(员工数少于10人)在云上分享会更灵活。

工作中面临的障碍

一般来说,脏数据是在数据科学领域中最常见的问题,不过对一丝不苟的数据库工程师来说,这不是他们最头疼的问题。其实,排在脏数据之后,公司政治问题、缺乏管理/缺少财务支持才是最让大家头疼的。

如果大家点击筛选键,就可能会注意到许多行业的受访者都表示他们缺乏数据科学天赋。继续看下去,就可以看到这些调查对象是如何逐步上手的了,大家可以学到他们的经验。

新手数据科学家如何才能进入这个领域?

当你开始新的职业生涯时,从别人的成功经验中学习是很有帮助的。在这次调查中,Kaggle也询问了在数据科学行业工作的人,问到他们是如何成功进入这个领域的。以下是一些他们认为应该分享的建议:

你会推荐新手数据科学家先学习什么语言?

每个数据科学家都对应该先学什么语言都有自己的看法。事实证明,那些只使用Python或R的人认为自己似乎做出了正确的选择。但是,如果你询问同时使用R和Python的人,他们推荐Python的比例是R语言的两倍。

你用的什么数据科学学习资源?

数据科学是一个快速变化的领域,有很多可以帮助你学习、让你时刻保持在行业前沿的有价值的资源,这样你在找工作时竞争力会很显著。

那些已经在数据科学领域工作的人为了时刻知道最新动态,比正在入行的人使用Stack Overflow问答、会议和播客的频率更高。

如果你正在制作内容或开源软件,请记住,正在进入该领域的人更常看的是官方文件和观看YouTube视频。

从哪里找到开放数据?

没有数据就没有数据科学。当谈到学习数据科学的经验,知道如何找到干净的公开数据集来用于实践和项目是非常有价值的。从下图可以看到,数据集聚合平台(比如Kaggle数据集)是被数据科学社群的成员使用得最频繁的工具。

你是怎么找到工作的呢?

当你在找工作的时候,你可能会试图在公司官网或技术类招聘平台上找,但是根据数据科学领域工作人员的说法,那是最没用的方法。为了进入这个领域,你应该试着联系招聘人员或者建立你自己的关系网。

想要知道更多详细的信息,可以访问 https://www.kaggle.com/surveys/2017 了解。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据猿

金融科技;大数据产品推荐:氪信XBehavior — 基于高维行为语言处理技术的信贷风险评估

XBehavior是一套集合用户移动设备行为采集,以及复杂的行为语言处理技术,最终为金融客户提供实时的信贷风险评估的产品。 官网 | www.datayuan....

3345
来自专栏数据的力量

如何写好一份优秀的竞品运营分析报告?

1717
来自专栏大数据和云计算技术

自然语言处理太难?按这个方式走,就是砍瓜切菜!

人工智能的研究和应用越发炙手可热,其中“机器学习、自动驾驶、语音识别、计算机视觉、自然语言处理、知识推理”这6个方向热度最为火爆。

962
来自专栏SeanCheney的专栏

《数据科学家访谈录》总结·4

01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - ...

532
来自专栏钱塘大数据

【干货】从初级到高级,大数据研究常用软件工具推荐

导读:如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。 工欲善其事,必先利...

30511
来自专栏AI科技评论

北大黄铁军教授:「智能为用,机器为体」,30 年内实现人造大脑

AI 科技评论按:在去年年底北京大学举办的人工智能前沿论坛上,黄铁军教授做了题为《强人工智能之路》的演讲。 黄铁军教授,北京大学信息科学技术学院教授,计算机科学...

2933
来自专栏PPV课数据科学社区

【推荐】这才是真正的物流大数据挖掘思路!

物流大数据,都是哪些数据? 物流大数据主要包括运单信息的数据和车辆信息的数据,然而关于运单信息往往涉及商业机密,并且信息分布于不同行业企业内部,不宜公开。因此当...

2934
来自专栏大数据挖掘DT机器学习

研究生:数据分析/挖掘工作的疑惑?

数据分析/挖掘工作的疑惑 本人在读硕士一名,研二,理工科,所作工作于这两方面无关。但是,最近对这个方向特别感兴趣,真的很想从事这方面的工作。目前,正在自学中,以...

3485
来自专栏AI科技大本营的专栏

小米小爱团队负责人王刚:语音交互背后,有多少人工就有多少智能

整理 | Just,阿司匹林 【导语】近日,在英特尔与 O'Reilly 联合主办的中国人工智能大会上,小米的小爱团队负责人王刚分享了他们在语音交互技术上的进展...

46414
来自专栏大数据文摘

语言学博士、Kaggle数据分析师,她说:读研不是必选项,这4项技能学校不教

1372

扫码关注云+社区