动态 | Kaggle16000份问卷揭示数据科学家平均画像:30岁,硕士学位,年薪36万

AI科技评论按,日前,Kaggle官网发布了一份关于数据科学和机器学习的调查报告,他们通过分析超过16000份相关用户的问卷调查,给出了数据科学行业从业人员的基本概况,大家在工作中使用比较多的方法以及对初入该行业的人的建议。

AI科技评论将核心内容编译如下:

为了建立对数据科学和机器学习的全面认识,Kaggle在今年首次开展了一项覆盖多个行业的调查研究。

他们收到了超过16000份回复,了解到该行业很多的相关信息,例如数据科学从业者的概括、机器学习领域的前沿研究,以及新手数据科学家如何能最好地进入这个领域。

在下面的报告中,他们分享了一些主要发现,这里面包括一些交互式可视化图,这样大家可以轻松地找到自己想知道的内容。以下是一些例子:

  • 虽然Python从整体上来说或许是最常使用的工具,不过我们的报告发现统计学家中用R语言的更多。
  • 数据科学家的平均年龄在30岁左右,但不同国家之间又略有不同。例如印度受访者的平均年龄比澳大利亚受访者要小9岁。
  • 受访者中拥有硕士学位的人占比最高,但是在薪水最高(15万美元以上)的人中,拥有博士学位的人最多。

他们在Kaggle上分享了这些完整的匿名数据集,大家可以下载、进行探索。

下载地址:https://www.kaggle.com/kaggle/kaggle-survey-2017

大家可以参与进来研究这些数据,分享自己的思路和代码,一起推进数据科学和机器学习的研究。与此同时,甚至可以赢得现金奖励。

数据科学家概况

分析这些数据科学从业人员概况的方法有很多,他们通过与这些数据科学家的工作和背景相关的统计信息入手:

年龄

调查对象的平均年龄在30岁左右,但不同国家之间又略有不同。例如印度受访者的平均年龄比澳大利亚受访者要小9岁。

在职情况

从图中可以看到全职的人最多。

职位

虽然大家经常将“数据科学家”定义为使用代码来分析数据的人,但在调查中发现大量的职位都属于数据科学领域。例如,在伊朗和马来西亚,数据科学研究领域最常见的的职位是“科学家或研究员”。

全职年薪

虽然在此次调查中,“薪酬和福利”的重要性不如“职业发展机会”,但大家最好还是要了解到合理的薪酬范围。在美国,机器学习工程师平均工资最高。

最高学历

一般来说,在从事数据科学研究的人中,研究生占比最高。但是在收入最高(15万美元—20万美元,20万美元以上)的人群中,拥有博士学位的人占比最多。

这次调查显示,年龄为30岁,拥有硕士学位,年收入约为5.5万美元的数据科学家处于平均水平。不过每个人之间的差异也很大,上面只是从表面上给出了Kaggle上数据科学社群在年龄、性别、国家、职位、薪水、工作经验和教育上的不同。

数据科学家的日常工作

数据科学家被定义为“写代码来分析数据”的人。Kaggle也调查了他们每天的工作生活情况,下面是调查中他们发现的一些亮点:

在工作中使用什么数据科学方法?

调查显示,工作中,在军事/安全领域,神经网络用的稍微多一点。除了这两个领域,Logistic回归是大家使用频率最高的数据科学方法。

使用的工作工具是什么?

Python是调查中大家最常用的数据分析工具,但从小的类别来看,统计学家使用最多的仍然是R语言。

大家使用的数据类型都是什么?

关系数据是在所有行业(除了学术和军事/安全领域)中最常使用的数据类型,学术和军事/安全领域中最常使用的数据类型是文本数据。

大家都是如何分享代码的呢?

受访者中使用Git分享代码的人占比最高,但在大公司(员工人数超过10000)使用电子邮件等方式分享代码的人更多,大家不怎么用云端传输,而小型公司(员工数少于10人)在云上分享会更灵活。

工作中面临的障碍

一般来说,脏数据是在数据科学领域中最常见的问题,不过对一丝不苟的数据库工程师来说,这不是他们最头疼的问题。其实,排在脏数据之后,公司政治问题、缺乏管理/缺少财务支持才是最让大家头疼的。

如果大家点击筛选键,就可能会注意到许多行业的受访者都表示他们缺乏数据科学天赋。继续看下去,就可以看到这些调查对象是如何逐步上手的了,大家可以学到他们的经验。

新手数据科学家如何才能进入这个领域?

当你开始新的职业生涯时,从别人的成功经验中学习是很有帮助的。在这次调查中,Kaggle也询问了在数据科学行业工作的人,问到他们是如何成功进入这个领域的。以下是一些他们认为应该分享的建议:

你会推荐新手数据科学家先学习什么语言?

每个数据科学家都对应该先学什么语言都有自己的看法。事实证明,那些只使用Python或R的人认为自己似乎做出了正确的选择。但是,如果你询问同时使用R和Python的人,他们推荐Python的比例是R语言的两倍。

你用的什么数据科学学习资源?

数据科学是一个快速变化的领域,有很多可以帮助你学习、让你时刻保持在行业前沿的有价值的资源,这样你在找工作时竞争力会很显著。

那些已经在数据科学领域工作的人为了时刻知道最新动态,比正在入行的人使用Stack Overflow问答、会议和播客的频率更高。

如果你正在制作内容或开源软件,请记住,正在进入该领域的人更常看的是官方文件和观看YouTube视频。

从哪里找到开放数据?

没有数据就没有数据科学。当谈到学习数据科学的经验,知道如何找到干净的公开数据集来用于实践和项目是非常有价值的。从下图可以看到,数据集聚合平台(比如Kaggle数据集)是被数据科学社群的成员使用得最频繁的工具。

你是怎么找到工作的呢?

当你在找工作的时候,你可能会试图在公司官网或技术类招聘平台上找,但是根据数据科学领域工作人员的说法,那是最没用的方法。为了进入这个领域,你应该试着联系招聘人员或者建立你自己的关系网。

想要知道更多详细的信息,可以访问 https://www.kaggle.com/surveys/2017 了解。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

如何将数据转化为收益:3步激活数据法!

虽然我们身处数字化时代,可作为营销者,稍稍审视一下,我们也不得不承认,数据分析仍是一个朝阳产业。 如果你像大多数机构一样,这意味着尽管你要收集比以前更多的数据,...

1738
来自专栏AI科技评论

动态 | 百度NLP团队登顶微软MARCO阅读理解测试

AI 科技评论消息,2 月 21 日,百度 NLP 团队提交的 V-Net 模型以 46.15 的 Rouge-L 得分位列微软的 MS MARCO 机器阅读理...

3387
来自专栏机器学习算法与Python学习

为什么说自然语言处理是人工智能的核心

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 如果一台计算机能够欺骗人类,让人相信...

4336
来自专栏机器学习算法与Python学习

谷歌打造自己的机器学习大军

作为机器学习的一种,打败了李世石的AlphaGo让更多的人认识了“深度学习”。 ? 作为机器学习的一种,打败了李世石的AlphaGo让更多的人认识了“深度学习”...

2659
来自专栏AI科技评论

从世界冠军到数据科学家 他是如何炼成的? | 牛人讲堂

大数据这个词我们听得太多了,可是很少有人意识到,随着互联网的发展,今时今日的这些“大”字究竟已经意味着一种什么样的量级。除去少数哗众取宠的使用这个词的公司外,那...

2895
来自专栏AI科技评论

Michael I. Jordan 撰文:不要被深度学习一叶障目不见泰山

AI 科技评论按:正如大家讨论人工智能时经常把它和机器学习甚至深度学习近似等价,工业界和学术界的许多研究、开发人员们也往往过于关注深度学习,忽略了实际上范围更广...

976
来自专栏新智元

【斯坦福AI百年报告2017】重磅发布人工智能与机器学习全景式概览

来源:aiindex.org 编译:编辑部 【新智元导读】“AI Index”(AI指数)近日重磅发布,这是斯坦福大学AI百年研究(AI 100)的一个项目,旨...

3059
来自专栏新智元

AI 预测人脸“第一印象”: 为没有真实数据,只有可衡量行为的问题建模

【新智元导读】美国圣母大学、哈佛大学等研究人员挑战为没有真实数据,只有可衡量行为的问题建模,他们设计了设计了一个基于回归框架的卷积神经网络,纯粹基于视觉判断得出...

3209
来自专栏腾讯研究院的专栏

“大数据”还不等于“大智慧”

  技术开发商和媒体早早地为我们描绘了一个即将来临的“大数据时代”。“大数据”无所不知无所不能;有了“大数据”的支持,公司运行效率突飞猛进;“大数据”还能帮你...

17310
来自专栏华章科技

【斯坦福AI百年报告2017】重磅发布人工智能与机器学习全景式概览

“AI Index”(AI指数)是斯坦福大学AI百年研究的一个项目,它是一个开放的非营利性项目,旨在追踪人工智能的活动和进展。它的目的是促进以数据为基础的对AI...

652

扫描关注云+社区