CrowdFlower数据科学家17年调查报告:情愿断腿也不想丢数据

大数据文摘作品,转载要求见文末

来源 | CrowdFlower

编译 | 万如苑,朱璇,张怿檬

前言部分:

连续第三年,CrowdFlower对来自各类机构的近200位数据科学家进行了一次问卷调查。往期问卷的问题包括对数据科学家幸福水平的评估、对数据科学家的人才需求等,今年的新问题包括受访者所使用数据的特点等。今年的报告还包含了很多对于人工智能领域的深入洞察,特别是人工智能成功的关键因素,例如算法和训练数据等。

一些我们最喜欢的发现:

  • 88%的数据科学家报告在他们的工作角色上感到开心或非常开心(尽管有3%的人表示宁愿成为摇滚明星)
  • 89%的数据科学家每个月至少会收到1次新工作机会邀请,30%的人会在一周被联系多次。
  • 72%的数据科学家计划在5年内可以体验自动驾驶的车辆。

过去12个月来,数据科学世界一直很忙。 不仅在科技界,而且在主流商务对话中AI和机器学习都已成为热门话题 。CEO们要求直接报告来发展AI计划,利用机器学习的公司获得了巨大的竞争优势,数据科学家人才比以往任何时候都更加炙手可热。

今年的报告包括了对过去数年来数据的更新,研究了数据科学家的时间花费,工作满意度和成功障碍。我们还包括一些数据本身的数据研究。数据科学家用什么样的数据资源,数据量的大小以及它们来自哪里。此外,在今年的报告中,我们深入研究了数据和算法之间的关系。最后,随着AI变得越来越普遍 - 不仅仅在科学和技术社区,更在日常交流中——我们要求数据科学家评论AI界的一些最大的趋势,从自动驾驶到关于AI和自动化背后的伦理问题

数据科学家的状态

在过去几年的报告中,我们讨论了数据科学家的稀缺。 在绝大多数数据科学家定期会接收招聘电话的情况下,数据科学家仍然供不应求。 尽管数据科学家在想要花费的时间与实际花费的时间做的事情上(嗯,仍然停留在那些“清理任务”中)存在显着的差距,但大多数人都在工作中感到快乐 -并且幸福似乎在逐年增长。

数据科学在成长

虽然“数据科学家”这个词相对较新,但高需求和人气已经吸引了很多新入行的数据科学家。 新入行者居多。 2015年,25%的数据科学家工作经验不到2年。 两年后,这一数字已经增加到35%,这清楚地表明了许多新的数据科学毕业生和全球551所大学提供在数据科学方面的学位。这可能是所有年轻人的乐观,但总体而言数据科学家的幸福感正在上升,声称在工作中感到“快乐或非常快乐”的人在过去2年增长了超过百分之二十。

但是,嘿,谁会不乐意从事被哈佛商业评论评为“21世纪最性感的工作”(2012年)呢? 尽管这个区别被详细地提过了 - 甚至在今年早些时候,出现为纽约时报纵横字谜线索的答案--64%的数据科学家都同意他们在做本世纪最性感的工作。 其余的36%为我们提供了一系列关于什么可能被认为是“更性感工作”的答案,从电影明星到宇航员到研究员,模特儿,时装设计师,艺术家,养蜂人,摇滚明星,高科技,甚至一个数据科学家的梦想离开数据行业去成为“Lady Gaga的服装师”。

资料来源:http://datascience.community/colleges

64%的数据科学家同意他们在本世纪最性感的工作(但3%宁愿成为摇滚明星)。

什么使数据科学家保持快乐? (以及为什么他们不做更多的事情?)

不过,雇主不应该把这种幸福当作理所应当的。 数据科学家们仍然处于高需求。 近90%的数据科学家(89%)每月至少联系一次新的工作机会,超过50%每周联系,30%报告每周被联系多次。

什么使数据科学家保持快乐? (为什么他们不做更多的事情?)

什么活动占用了大部分时间?

51%收集,标签,清理和组织数据

19%建立数据模型

10%规律

9%调优算法

8%其他

像是在本能上与最佳方案相反(并且是一个持续了几年的趋势),数据科学家在不喜欢的任务上上花费了大量的时间而用很少的时间来做他们享受的活动。

数据科学家最开心于数据建模,挖掘数据规律和优化算法。这三项脑力任务比“数据清洗任务”的受欢迎程度高出近8倍,然而仅有19%的数据科学家将大部分时间用于最受欢迎的活动 - “数据建模”。

与前几年一样,在数据科学家更受欢迎任务列表中“清洗任务”的得分非常低。 高达60%数据科学家将“清理和组织数据”列为3个最不喜欢的任务之一,51%抱怨“标记数据”,48%将“收集数据集”列为三大最可怕的消耗时间方式之一。

与此相反,这些相同的数据“清洗任务”占用最多的时间。 我们53%的数据科学家受访者花费最多的时间来完成他们最不喜欢的任务, 45%的受访者将最多的时间花在总体上最不受欢迎的任务上:“清洗和组织数据”。

最享受和最讨厌的三个任务

更多数据本身的数据

任何数据科学家的工作的核心是数据。 在今年的调查中,我们决定对数据本身进行深入研究:数据科学家如何理解数据、获取数据、分类数据,以及数据量的大小。 2017年,数据科学家正在研究比以往更多的数据,其中大部分是各种格式的非结构化数据,如文本和图像。 然而,“获取高质量的数据”被认为是数据科学家成功的第一个障碍,50%数据科学家把它排在实现目标前3名的障碍之中。

您的大量工作是否涉及非结构化数据?

是51%

否49%

“获取高质量的数据”被认为是AI项目成功的首要障碍。

数据的改进

纯粹的数据量不是问题。调查对象的百分之九十预测他们将在2017年有更多的数据来处理,没有人认为数据量会下降。挑战之一当然是非结构化数据的数量不仅可用,而且对于多个项目的成功至关重要。有一半以上的数据科学家(51%)花费大量时间处理非结构化数据集。据研究和咨询公司Gartner介绍,从各种摄像机和传感器获得的非结构化视频和图像数据预计到2019年将超过所有互联网流量的80%,到2020年,95%的视频/图像内容将永远不会被人们所看到,但将被机器分析.1 视觉数据的显着上升也体现在我们的调查反馈中。我们并不奇怪90的受访者都处理过文本类数据,但很大一部分数据科学家也在利用图像(33%)和视频(15%)数据。

Gartner视频/图像分析创新见解

2016年,Nick Ingelbrecht和Melissa Davis,2016年9月22日

在未来的一年里,你认为你会有________吗?

90%: 更多数据来管理。

0%: 更少数据来管理。

9%: 大约相同数量的数据。

1%:不确定。

质比量更重要

尽管不缺数据,取得高质量的数据仍是一个挑战。尤其是在AI项目上,51%的受访者都把数据质量相关的问题(比如“获取好的训练数据”或“提高训练数据集的质量”)列为项目成功的最大瓶颈。

首先,数据从哪里来?

让我们先来看看那些最流行的数据来源。 虽然大多数数据科学家使用内部系统产生的数据(78%),但有超过一半的数据科学家从至少3种不同来源获得数据,包括手动内部收集、公开数据集和外包收集。 最后,48%的数据科学家将收集数据列为他们最不喜欢的三大任务之一,而43%的数据科学家则不得不亲自收集数据。

上图:几个主要的数据来源,由上至下依次为:公开数据集(41%),我/我的团队亲自收集(43%),从内部系统产生(78%),内部收集(68%)和外包收集(28%)。

训练数据 VS. 算法

伴随着2016年人们对AI的关注和狂热,“算法”这个概念摆脱了象牙塔,变成了流行语。不用成为数学家,我们也知道算法“无所不能”:它们能预测NBA总冠军,能估计农作物产量,还能预测大选结果。在这个AI的季节,算法就如同舞会中最漂亮的女人般光彩夺目。

与此相反,媒体似乎不那么重视训练数据,而是渲染这样一种近乎神话的概念:算法能神奇地处理大量的数据。现实中,数据其实起着至关重要的作用。当被问到什么是AI项目成功的最大瓶颈时,超过一半的受访者给出了类似“获得优质训练数据或改进训练数据集”这样的答案,只有不到10%的人认为机器学习代码是最大的瓶颈。另外30%的人则在将机器学习模型应用到实际生产环境中时遇到问题。

在今年的报告中,我们想了解数据科学家对这个问题的看法。我们想要测试的假设是:虽然算法在数据科学家心目中处于核心位置,但真正的高质量训练数据才是许多项目成功的关键。我们的调查从多个角度提出了关于“训练数据 VS. 算法”的问题。无论我们如何提问,数据科学家们都很清楚地表达了训练数据集是他们的“最重视的东西”,甚至比自己的手脚还重要。

上图:运行成功AI /机器学习项目的最大瓶颈是什么?从左到右:构建精准的机器学习模型(9%),获得优质训练数据或改进训练数据集(51%),以及将机器学习模型部署到实际生产环境(29%)。

你的选择是?

更生动的是,我们不仅让数据科学家在算法和训练数据之间做选择,还让他们在算法和“完整的四肢”之间做选择。 当被问到必须在以下三种情况中选择其一时(下图从左至右):(1)不小心删除了培训数据(无备份)、(2)不小心删除了机器学习代码(无备份)、(3)或者断了条腿,刚过半数(52%)的受访者选择宁愿牺牲自己的算法(2)。有意思的是,当在四肢和数据二选一时,更多的数据科学家宁愿断腿(28%)也不愿意外删除训练数据(21%)。

先有训练数据还是先有算法?

现实是,训练数据和算法在迭代-循环过程中是两个独立部分。其实就像“先有鸡还是先有蛋”一样,训练数据/算法“唇齿相依”,缺一不可。我们在问卷中提出了“先有培训数据还是先有算法?”这个问题。下面是一些我们喜欢的来自数据科学家的回答:

这取决于我们对算法的定义。我们现今所使用的许多算法的起源远早于我们现今所使用的数据。这些早已形成的算法首先被用于分析当时的数据。比如最小二乘法(Least Squares)先被用于分析天文数据。虽然我们可以说这些算法通常建立在早已存在的数学基础之上,但将它应用到对于特定问题的数据结构推理上仍然是真正的进步。。因此,我会说训练数据早于算法。在某种意义上,类似的现象也发生在数学领域,猜想可以推动进步:猜想常常源于少数(也可能是大量)例子, 并亟需泛化。

一些人随后问到:我如何去理解这些数据呢?

算法就是一旦有了数据后,就可能实现的想法。

数据中的真实关系在算法发现它之前就存在了。

没有数据,算法就没啥用。这就像餐桌上只有叉子和勺子,但没有食物。

学术论文中常用模拟数据来讨论算法的功能和特性。例如,20世纪40年代就出现了人工神经网络算法,尽管当时关于数据库和计算的概念才刚起步。即使没有“大数据”,数学上也发展出新的算法,因此总是先有算法。

我们关心的是从世界上各种信号和信息中去发现它们的标签和模式,其次才是进行预测。

有时你有一个搜索数据的算法,但这通常仍然是由一个真正的问题启发出来的。因此,先有数据才有算法。

“技术给了我们前所未有的潜力使文明更繁荣,但也可能会导致人类的自我毁灭。”

——生命未来研究所(Future of Life Institute)的信条

阅读任何一篇关于AI的文章,你都很可能会发现提到道德问题的内容。从白宫到华尔街日报到世界经济论坛都指出:如何规划未来,对于数据科学家,乃至整个社会而言,都是面临的最关键的问题之一。。在可能是今年问卷中最重要的问题上,我们问到,“你个人认为以下哪个选项是关于道德伦理和人工智能有关的问题”今年的调查中最重要的问题可能是:“你个人认为以下哪个选项可能是伦理和人工智能面临的问题?”

目前数据科学家最担忧的问题是我们在机器学习中掺入了人类的偏见。(下图)63%的受访者对此表示了担忧,其中包括了对训练数据集完整性的重视。

一半的数据科学家主要关注在战争/智力方面AI和自动化的使用(见下图,49%受访者)。分别有41%和42%的数据科学家还表达了对AI取代人工劳动力和无法达成公认的道德准则的关注。

上图:数据科学家关注的伦理道德问题(请参阅正文)

概要

总而言之,如果2016是算法年,我们宣布2017是数据年—更精确的来说,是训练数据年。数据科学家花了过半的时间来标记和创造训练数据,他们认为这些数据比机器学习代码(和“折断一条腿”)更重要,并且是先有了数据,再有算法最重要的是,在AI大热的背景下,完整的数据是提供无偏差模型的关键。尽管数据科学家百分百预测将在2017年处理更多的数据,但数据的质量难以预测,而缺乏高质量的训练数据往往是AI项目失败的最大原因。鉴于几乎所有行业的AI项目都将大量增加,数据科学家必须努力减少重复性的工作量、将工作流程流水化,从而更好的应对日益增长的数据、增多的AI项目和持续的人才紧缺带来的挑战。

方法

CrowdFlower在2017年2月和3月对全球179位数据科学家进行了调查。受访者来自规模从<100人以下到10,000+人以上不等的不同行业的公司,其中略微偏向“技术”公司(约占40%的受访者

2017SAS中国用户大会暨商业分析领袖峰会

2017年6月8日(周四)万达索菲特大饭店

原文链接:http://www.kdnuggets.com/2017/05/crowdflower-data-science-report-available.html

关于转载 如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-06-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

2018-2019年人工智能领域十大最具成长性技术展望

导读:近日,在2018世界机器人大会主论坛上,中国电子学会发布《新一代人工智能领域十大最具成长性技术展望(2018-2019年)》。

18530
来自专栏新智元

【视频】让围棋AI自己落子,DexNet机械臂深度学习抓取各种形状物体

【新智元导读】战无不胜的 AlphaGo 离不开它的“机械臂”黄博士。如果让 AlphaGo 自己落子,人类胜算想必能提高不少。抓取形状不规则的物品对机器人来说...

39170
来自专栏CDA数据分析师

数据科学家:在实际工作后,我深刻认识到的五点

我从事数据科学工作了已经将近半年了,我一路上成长了很多,也犯了很多错误,并在这一过程中从学习了很多。

10410
来自专栏CDA数据分析师

13招神技 让你在数据科学和数据分析工作中脱颖而出

我有幸在很早参与了一个大数据科学项目,我非常喜欢其中的工作,甚至我意识到我的努力可以增加一些公司的价值。 然而,可悲的是,只有不到30%的数据科学项目最终实施了...

19780
来自专栏PPV课数据科学社区

【观点】自动分析工具:数据科学家职业的终结者?

? 数据科学家目前可谓是炙手可热的职业。 关于数据科学家的职业发展的讨论有很多。最近Louis Dorard在GigaOM上发表了一篇关于数据科学家职业发展的...

28940
来自专栏新智元

IBM 最强神经形态芯片电脑出货,与人类大脑又近一步

人类觉得电脑厉害,殊不知最厉害的电脑是人脑。IBM说,我们想做可以像人类一样做决策的电脑。本周,NS16e,IBM以人类大脑为灵感的最大电脑出货,目标远大。 N...

37070
来自专栏腾讯大讲堂的专栏

专访腾讯“优图团队”:腾讯内部的核心技术团队是这样服务产品团队的

一个偶然的机会,36氪和“优图团队”进行了接触,他们是腾讯内部专注于图像处理、模式识别、机器学习、数据挖掘等领域的核心技术团队,由毕业自清华、北大、中科院、上海...

24360
来自专栏机器之心

业界 | 谷歌TPU之后还有高通,人工智能芯片竞赛已经展开

选自Wired 作者:Cade Metz 机器之心编译 参与:黄小天、李泽南 作为机器学习的领军人物,Yann LeCun(杨立昆)曾在 25 年前开发过一块...

381110
来自专栏人工智能头条

AAAI主席Rao Kambhampati:破解人机共存的规划技术挑战(PPT下载)

14630
来自专栏PPV课数据科学社区

【探讨】为什么数据分析师要用产品思维?

数据分析这词汇时髦的不得了,然而就像这些年所炒的各种概念一样,当冷静下来,请很多人解释数据分析到底是什么时,恐怕要有一个不错的答案很难。   比较常...

37350

扫码关注云+社区

领取腾讯云代金券