其实这些数据科学专长,才是老板们最想要的!

这是一个好消息,如果你希望在2016年找一份数据科学的工作—在该领域职位空缺的数量正在不断增加,企业希望利用大数据来获得竞争优势。但事实上,找一份梦寐以求的数据科学工作就意味着你要具备一些技能的组合,你可能会惊讶学习哪些技能是雇主所最需要的。

最近,人们在CrowdFlower上针对Linkedin的3490个数据科学职位做了分析,并对最常出现的21个技能进行了排序。有些结果并不那么令人惊讶—SQL排在最前,而其它的结果可能是数据科学领域不断发展的领先指标。

如上所述,SQL是最常见的技能,在Linkedin发布的所有数据科学工作中占比达到了57%。Hadoop排在第二,占比49%。这并不出乎CrowdFlower公司CEO和创始人Lukas Biewald的意料。CrowdFlower是美国硅谷一家从事众包数据处理的公司。

“SQL和Hadoop排在前两位并没什么惊讶的,因为它们本身就是存储数据的技术”Biewald告诉Datanami(本文转译自该网站)。“每个数据科学家必须知道如何获取数据。如果你不知如何获取数据,那你什么都做不了。”

在所有数据科学的招聘信息中,python是排在第三名的技能。在CrowdFlower去年关于数据科学家哪些技能是最重要的调查中,python排在R的后面。但在本次招聘信息的调查中(这无疑是更具有前瞻性的范围),python作为数据科学的一项关键性技能占比达到了39%。相比之下,R是32%。

相比R来说,为什么现在越来越多的雇主正在寻找具备python技能的数据科学家?Biewald提出了自己的看法:“python的工具集越来越好。已经有很多基于python的统计工具”。“还有一个认识是数据科学不仅仅是统计学”。

设想一下,数据科学家80%的时间花费在数据清理和数据准备上,而只有20%的时间是用来做分析。这或许可以解释python突然出现的原因。

“我认为Python是做数据清理的语言,而R是做分析的”,Biewald说到。在创办CrowdFlower之前,他负责领导Yahoo的搜索相关团队。“由于数据科学更多的是做数据清洗和准备,python正变得越来越重要。它无疑是将数据整理成适合做分析的数据格式最好的语言”。

事实上,Java排在第四位让人有点摸不着头脑。因为Java本身不是数据科学所要求的掌握一门语言,当你在java中写Hadoop的时候,它的高配就显得有道理了。其它跟Hadoop相关的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。

对于这份CrowdFlower从Linkedin编辑过来的职位列表,多少有些遗漏。Apache Spark,在上面给出的数据科学技能要求中没有出现过。Scala也没有出现过,它是在Spark框架内处理数据的主要途径之一。

这可能是因为Spark还比较前沿,大家对它知之甚少。“现在周围对它有很多炒作,但可能还是太早了”Biewald说到。“在CrowdFlower,我们已经开始使用它了。我认为这门技术很棒,但在企业真正使用它的时候会有些滞后”。

Spark和Scala可能是数据科学的未来(它们在Alphabet[NASDAQ:GOOGL]公司中得到大力支持,硅谷的许多高科技公司也在广泛的使用它们)。但不是每个数据科学项目或团队都需要走在技术的最前沿才能实现他们的大数据成果。“令人惊讶的是现在很多人都在寻找数据科学家,但是我认为他们中的很多人是不想走在最前沿的”Biewald说到。

这份CrowdFlower列表中包含了许多知名的数据分析工具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald认为这些工具仍是有价值的并且在未来一段时间内还会继续使用。但是他希望它们的市场份额逐渐被那些专门为大数据设计的新工具所夺走。

“数据科学的角色大于统计学家”他说。“在我们的脑海里,这些旧的语言更多的是建立在统计学家的基础上,它们只是对少量的数据进行分析。而排名在前的Hadoop,python和Java则可以运行TB级的数据。你可以用SAS,SPSS,Matlab来做大数据分析,但这不是它们设计的目的”。

不是每个人都同意“数据科学”或“数据科学家”应该做什么以及应该掌握什么样技能的定义。事实上,一些人反对使用术语“科学”,而宁愿用诸如“应用统计”的短语。(想起了哈佛商业评论称应用统计学家是21世纪最性感的职业)

但在Biewald和其他人眼中,处理数据的能力和统计分析的能力同等重要。这就是他对数据科学家进一步给出的定义。

“在过去,我们处理几千条记录的时候不是特别难。但是,当数据量达到数十亿条记录的时候我们就需要真本事来得到一个规范的格式,以便我们进一步做回归或机器学习”他说。“对于这种情况,我想要聘请的是一名掌握python或者是C、Perl、Ruby亦或是一门更多做数据处理而不是做数据分析的语言的数据科学家”。

本文由雪晴数据网负责翻译整理,原文请参考What Data Science Skills Employers Want Now作者Alex Woodie。转载请注明原文链接http://www.xueqing.cc/cms/article/110

版权声明:转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

走出大数据的“大”的误区

“大数据”已经成为21世纪商业的代名词。聚拢大量数据的浪潮正变得愈加猛烈。公司无论所属行业和规模大小,都竭力想要实现招聘自动化,将流程数字化,并且打造出客户和求...

8220
来自专栏BestSDK

研究了300家SaaS公司后,总结了这7条发展经验

(一) 如果始终按照原有的方式增长,公司增长将很难持续   那些表现优异的公司在公司发展早期阶段的增长率是非常高的,不过随着公司的发展,增长率将会慢慢放缓。为了...

37370
来自专栏Java学习网

十年技术,不要再迷茫

  前几天看到多年的兄弟又换工作了,他在QQ签名上写了一句“三十而立,网海茫茫;十年技术,一场空!哎,何处是归途”,看了以后,我回想了一下,感觉我和他也差不多,...

30740
来自专栏不二小段

读书笔记:增长黑客(一)

读书笔记 GROWTH HACKER 增长黑客 (一) 1 增长黑客的崛起 什么是“增长黑客” 这一说法源于硅谷,最早在 2010 年由 Qualaroo 的创...

41670
来自专栏顶级程序员

对话张小龙!“演讲”刷屏,他这么回应那些反驳他的声音

周六,作者第一时间编发了「张小龙最新内部演讲:警惕KPI和流程」。但也许是因为文中观点牵扯到每个人熟知的 KPI 和流程,所以即使江湖地位在那摆着,看官们依然众...

34450
来自专栏ATYUN订阅号

可定制人脸:Furhat Robotics发布类人社交机器人

Furhat Robotics今天推出了一款突破性的社交机器人,展示了人类机器人和会话AI领域的重大进步。

5910
来自专栏程序员互动联盟

如何成为顶级技术巨匠?

对于我们这些刚入行浮躁的系统工程师,如何成长,以下是列出了一些成长的心得,我们不必每条都去实践,但是优秀的系统工程师成长过程中总会实践里面的几条。 多做项目,...

22140
来自专栏养码场

Spark 和 Flink之争,阿里、滴滴等技术大牛揭秘:你的项目该用哪个?

做大数据绝对躲不过的一个热门话题就是实时流计算,而提到实时流计算,就是Spark 和 Flink两面大旗。

18720
来自专栏牛客网

阿里2018暑期实习生校招内容运营岗面经(已获得offer)

1.8K00
来自专栏web前端教室

工作几年后,前端工程师的核心竞争力是什么?

这篇文章面向的读者是已经工作了三年以上的前端开发者。 三年以下的前端人,看了跑偏跟我没关系。 //////////// 想一个问题,前端都包括什么? 你可能会向...

352100

扫码关注云+社区

领取腾讯云代金券