CloudFlower | 2016数据科学家报告

来源:http://dataunion.org/23536.html 出品方:CloudFlower 翻译:数盟社区

前言

我们的《2016数据科学家报告》是去年的努力的后续行动。我们的目的是调查有着多年经验和专业领域的专业数据科学家,从而了解他们的职业,以及他们每天的日常工作是怎样的。

我们的发现非常有趣。对创业公司而言,数据科学家把多数时间花在做他们不喜欢做的事。然而,他们中的绝大多数仍然热爱他们的工作。我们重点关注数据科学家认为机器学习在特殊领域和整个行业中有何等的重要性。我们还得到了关于这个领域未来五年发展的各种观点迥异的预测。

方法

与我们的《2015数据科学报告》相同的是,今年的报告来自于对真实科学家的真实调查和访谈。我们问了他们一系列关于他们的日常工作的问题,他们遇到什么挫折,以及更多问题。我们也在我们的平台上提供了几个职位来寻找雇主正在寻找的特定技能,从而使科学家知道什么技能是需求量最大的。我们将最有趣的趋势整理出来,并在报告中呈现。我们希望你喜欢它。

谁参与了调查?

首先,让我们了解一下我们调查的数据科学家种类。我们的观点收集覆盖了从高级CDO到初入领域的人。他们有不同的技能和多样化的专长领域。

由于数据科学仍然是一个相对新的领域——曾经在《哈佛商业评论》中被D.J Patil称为21世纪称为21世纪最性感的工作——这并不奇怪,大约三分之二的受访者进入该领域仅5年或更少。

这并不是说我们只调查刚从大学毕业的数据科学家,其实,我们最大的受访者范围介于两年到五年经验之间。

发现

数据科学家依然供不应求(而且可能会变得更严重)

去年我们发现,有79%的受访者表示,有在该领域的数据科学家的短缺。虽然这已经十分惊人,但我们的调查发现在2016年这种情况可能会变得更糟。

83%的受访者表示没有足够的数据科学家来解决问题。而随着越来越多的企业和组织对数据进行投资,这一趋势可能继续。

数据科学家热爱他们的工作

尽管没有我们没有足够的数据科学家来走访,典型的数据科学家是热爱自己的工作的。我们要求受访者在一个简单的五点量表上排出他们在当前位置的幸福感。超过三分之一的受访者(35%),给他们工作打出最高分。约一半(47%)给了4分。

换一种说法?超过80%的数据科学家在工作中真的很开心。

那么,为什么会这样?当然,你很难从一个简单的调查来解释它。但是从不同的反应来看我们得到了关于数据科学的未来,最显著的收获是受访者对工作领域的革新如此兴奋。他们通过实践举出示例,他们看到他们的工作如何变得更加有趣、减少重复,都同时表达着真实的对工作的热情。

随着数据的科学变得越来越司空见惯,同时也在一点点的被揭秘,我们预计这一趋势将持续下去。毕竟,去年的受访者对他们的工作同样表示兴奋(约79%是“满意”或更好)。

一个数据科学家如何度过一天

这里对数据科学家的流行看法与现实相左。一般情况下,我们认为数据科学家就是建立算法,研究数据,做预测分析。但是这实际上不是他们花费大部分时间在做的事。

正如你可以从上面的图看到的,我们所调查的每5个数据科学家中有3个实际把最多的时间花在清理和组织数据上。你可能听说过这个被称为“数据的争吵”或相对于数字看门的工作。来自列表验证中的一切删除逗号来调试数据库-那段时间加起来,这极大地增加了。凌乱数据是迄今为止典型数据科学家的工作流程最费时的地方。而近60%的人表示他们花了太多的时间做这个事。

为什么会出现上述问题?

简单的说,数据争吵很无趣。它是无止境的。事实上,在几年以前,纽约时报估计多达80%的数据科学家都把时间花在这种工作上。

在这里有必要指出,数据清洗非常重要。你不能做那种数据科学家真正喜欢与杂乱的数据做的工作。它需要清洗,贴标签,并被丰富,你才能信任它的输出值。

这里的问题是双重的:数据科学家们根本不喜欢做这种工作,正如前面所提到的,这类工作占用了大部分时间。我们问我们的受访者什么是他们的工作里最不愉快的一部分。

这是他们的回答:

请注意最后的两个图表是怎样反映出彼此的。科学家们做的最多事情是他们最喜欢的事情。去年,我们发现,受访者更倾向于做他们的工作中更具创造性的、有趣的部分,如预测分析和挖掘数据的模式。那是真正的价值所在。但同样,你根本不能做这项工作,除非数据被正确地标记。没有人喜欢标签数据。

数据科学家们有他们需要的吗?

有了世界上的数据科学家的短缺,我们想知道他们是否认为他们在工作中得到了正确的支持。毕竟,当你需要更多的数据科学家的时候,你会发现只有一个人在做各种工作。

大多数情况下,他们有他们所需要的工具。更广泛的说,这包括了工具、应用和程序。我们询问被调查者是否同意下列声明:我有我需要的、使我的工作有效的工具。

以下是他们的答案:

值得注意的是,只有14%的被调查者认为他们被他们的工具所阻碍。证据表明,虽然数据科学家的数量不够,但是他们的组织致力于给他们成功的最佳机会。这也不是一件坏事,我们想了解一些东西。我们问我们的受访对象,他们希望他们的雇主提供什么领域的支持,但是没有得到。答案并不惊奇:大约有四分之一的受访者希望有一个更大的团队。数据科学家短缺的数据已经预测到了这一点。但他们最希望的是来自他们的管理或管理团队更多的支持和方向(27%)。

数据科学技能需求TOP10

数据科学,作为一个领域,仍然是不断发展的。也就是说今天的最佳技能可能会被日后更好的技能取代。我们看了近4000个在LinkedIn上展示的数据科学工作,研究招聘者希望新员工具备哪些技能。我们把那些招聘信息通过CrowdFlower平台po出来并且标上我们的独特标记:哪些技能出现在哪些岗位上。

以下是数据科学家的技能需求TOP10:

数据科学的下一步是什么?

接下来,简单地说,就是机器学习。机器学习在某种程度上已经普及了,大多数的世界上最大的公司,科技界的大玩家像谷歌、微软、亚马逊、IBM和Facebook将他们的机器学习工具开源,产生了巨大的推动作用。

我们想知道我们的受访者是否会在未来的一年关注机器学习。我们问他们机器学习有多重要,用1-5来衡量。换句话说:真的很重要。超过一半的受访者指出机器学习对他们的公司和部门有意义,而在10个人中只有1个人标记这不是很重要。我们期望这个10%到明年会继续缩小。

结论

随着越来越多的组织采用的数据作为决策的主要驱动力,简单化、流程顺利的数据科学团队将是最重要的。但目前的现状很可能是不可持续的。一方面,我们看到数据科学家的缺乏,他们花太多时间清理和修改数据。这是一次可以更好的服务于预测分析和建立机器学习的做法,这并不是说清洁和标记数据是不重要的,当然。对不良数据进行分析是一种吞吐垃圾的场景。相反,想要得到数据的组织应该有目的地解决他们的团队现在的问题。组织应该和他们沟通,并找出什么占用了他们的时间。通过减少他们的团队花在清洁数据上的时间,他们将能够使他们的团队做数据科学家真正喜欢做的有价值的任务。

END

版权声明: 转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-04-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

百度沈国龙:BML百度大规模机器学习云平台实践

20580
来自专栏AI科技评论

吴恩达解读百度大脑:人工智能到底能为我们做些什么?| 百度世界2016

雷锋网2016年9月1日消息,百度世界2016在京举行。大会上百度首席科学家吴恩达解读了百度大脑的四大能力和百度深度学习平台,并且宣布这个月会把百度深度学习平台...

35680
来自专栏架构技术

[转] 研发组织该如何设计绩效体系?

德鲁克在《21世纪的管理挑战》一书中指出:“管理的第一个任务是规定组织的成效和绩效,而任何有这方面经验的人都可以证明,这实质上是一项最艰巨、最有争议的任务,但同...

20420
来自专栏CDA数据分析师

傅志华:腾讯如何用数据帮助产品经理做精细化运营

在“2013中国技术商业论坛暨领袖峰会”无数据不互联专场,腾讯云数据分析中心总监傅志华讲述了,腾讯如何利用用户生命周期管理办法帮助产品经理做精细化运营。 【用数...

24380
来自专栏钱塘大数据

【干货】从初级到高级,大数据研究常用软件工具推荐

导读:如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。 工欲善其事,必先利...

459110
来自专栏AI科技评论

图灵奖得主 Joseph Sifakis : 物联网领域的自主系统设计 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

13520
来自专栏about云

2016年,数据、分析和机器学习趋势五大预测

问题导读 1.你是如何预测大数据行业的? 2.本文是如何预测的? 3.你认为该如何根据行业来计划自己的2016? ? 第一个预测是数据和分析将以惊人...

36480
来自专栏AI科技评论

MSRA副院长周明博士:四大研究领域揭示自然语言技术的奥秘

AI 科技评论按:比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」,沈向洋博士也说过「懂语言者得天下」。自然语言理解处在认知智能最核心的地位。它的进步会引导...

33380
来自专栏PPV课数据科学社区

【学习】网站数据分析:电子商务网站用户分析

? 前一篇文章主要是基于点击流数据的用户分析,适合所有网站,而对于一些特殊的网站,可以根据自身所能获取的数据将分析的指标进行扩展或根据自身的特征定制合适的指标...

37270
来自专栏CSDN技术头条

你可能遇到了”假“的数据科学家

近十年来,“数据科学”和“数据科学家”备受争论。对于哪些人可以被称为是“数据科学家”,争论不休,你很有可能遇到了”假“的数据科学家。 我们最后达成一致:只要取得...

22080

扫码关注云+社区

领取腾讯云代金券