数据科学家需要怎样的技能组合?

原文:http://developer.51cto.com/art/201604/508969.htm

在2016年的美国,数据科学家已经被冠以“最佳工作”的头衔,数据科学家的定义以及成为一名出色数据科学家所需的技能一直处于不断的变化之中。科技和商业需求方面的进步驱使着数据科学家随着行业的不断变化而不停的进化。在这片文章中,我们将会近距离的看一看在2016年当中,作为一名数据科学家应该扮演何种角色。

Dave Holtz写道,小小的“数据科学家”这样的岗位头衔,经常被充当一个空白头衔来用,其作用就是说明数据科学家这样的岗位所涉及到一系列工作,其实与其他工作有着天壤之别的差异。他把其中的原因归咎于数据科学领域仍然处于婴儿期并且人们对数据科学家的定义也并不是如此明确。采用了这样一个属于跨学科领域的包罗万象的头衔,数据科学家的工作就是从海量的数据当中以各种形式提取出人们所需要的知识或者是对于事物的洞察力。

大数据时代的年龄取决于我们自身,而且此刻它就停留在我们面前。现在我们收集到的数据量比以往任何时期都要庞大,而且伴随着时间的流逝,从数据中提取有价值的信息将会变得越来越错综复杂,并且需要更高超的技术。大数据经济背后的逻辑正在以难以想象和预测的方式影响着我们每个人的生活。我们日常生活中造就的每一个电子信息化的行为所产生的数据,最后都将会被用于数据统计,我们也可以借此洞察产业的发展。

作为消费者经济的参与者,当我们与任何一个网站或者电子化服务有所接触的时候,我们每个人都会被当成 数据挖掘 的对象,而且数据科学家就在那里使用计算机科学、统计分析学以及错综复杂的商业知识相结合的方式对我们提供的数据进行收集、清洗、分析以及预测。

下面这张图为我们展示了一名数据科学家所需要具备的技能组合。我们可以发现,和典型的大数据开发者或者商业分析专员相比,他的职责是多种技能和经验的有效组合。

图1:数据科学家的技能组合

是什么让数据科学家有别于他人,是看起来比较类似的数据工作吗?

Rivera和Haverson提示我们说,以前的数据专家总是把工作的精力集中到数据的演示和迁移,而数据科学家更趋向于从数学角度出发,主要精力在于从过去和目前的数据中鉴别出各种模式,并从中得到启发。如果从字面意思进行理解的话,“科学”表示通过系统性的学习而得到的知识;“数据”则意味着定性或定量变量的信息库——因此,从字面上看,一名数据科学家可以被定义为一个对组织和信息的属性进行系统性研究的人士。

尽管统计学家和其他研究数据分析的人士扮演着至关重要的角色,但是数据科学家的角色,就像Anjul Bhambari先生描述的那样,一部分是分析师,一部分是艺术家,并且必定会为传统数据的分析和使用方式带来全新的变革。

社会对数据科学家的需求与日俱增

商务人际网络LinkedIn的成功,就是一个数据科学家通过数据为商业智能带去好处和利益的鲜活案例。当一家企业主要依靠他拥有的三亿八千万用户之间互联的数据转换来盈利时,LinkedIn正在利用这些专业人才的好奇心来探寻大数据当中的新大陆。

LinkedIn和其他类似Facebook以及Google这样的知识产业正在利用数据科学家的角色将体量庞大且抽象的数据进行结构化建设,从数据值和变量之间的系统性关联当中界定其自身所蕴含的机密。

最近,由KPMG发起的一份调查报告显示,99%的被调查对象认为大数据分析对他们下一年的战略规划有着举足轻重的作用。等到了2020年,企业发展过程中每天产生的数据量将会超过240艾字节,到了那个时候,企业会发现,对于可以从庞大数据库中提取有价值信息的数据科学家的需求,将会比以前更重要。然而,一篇由Travis Wright撰写的文章说,对于数据科学家的需求将会远远超过目前社会能够提供的水平,并且单单在美国的那些公司就需要雇佣14万至19万名数据科学家,前提是这些公司会继续跟随数据经济带来的效益。

但是出乎我们意料的是,数据科学家的平均工资却存在着很多的矛盾,然而,我们清楚的是,该职位的平均工资确实会随着对数据科学家需求的增长迎来更高的工资待遇。如果雇主期待候选人可以拥有数据挖掘算法经验;能够完全使用像R和Python这样的语言开展工作;在大型数据库(类似SQL)方面有工作经验;可以执行Java应用;可以执行NoSQL数据库——并且候选人还可以和非专业技术人员交流以上所有工作方面的事宜,那么想得到约为12万美金的年薪看起来并非如此遥远的事情。

数据科学家的作用

尽管一名数据科学家的职能超越很多传统的数据分析师的职务,其中也有很多显而易见的区别。

一名数据分析师或建筑师能够 庞大的数据库当中提取信息 。然而他们却被SQL查询和用于切割数据库的软件分析包所限制。通过使用机器学习的高级知识和编程/工程,数据科学家可以按照他们自己的意愿操作数据从而揭露出更深层次的发现。他们却不会因这些程序而受到约束。

典型的数据分析专员的做法就是回顾过去产生的数据以及所发生的事件,但是一名数据科学家的做法必须超越于此并着眼于未来。 通过使用高级统计方式和复杂的数据建模,数据科学家必须发现其中的模式,还得对未来做出预测。

数据科学家需要具备的技能

成功的数据分析依赖于数据的清理、整合以及转换——关键的是,这需要所有数据科学家必须拥有所有技能的整合能力。如果将你自己的科学背景与计算和分析技巧相结合的话,完全可以让自己更上一层楼。

但还是让我们更深入的挖掘一下,成为一名数据科学家所需具备的实际技能吧。Data Floq公司的CEO,Mark van Rijmenam先生向我们推荐说,数据科学家应该具备以下的技能:统计、数学和伦理,当然也得包括相当高的预测建模经验,以便于为了找出正确的问题和相应正确的答案而构建出必要的算法。

尽管一位数据科学家可能执行的技能和不同的岗位职能很多,但来自LinkedIn的Ferris Jumah又进一步为我们整洁地归纳出所需的技能。

一名数据科学家必须:

  • 用数学的思维方式看待数据 。了解一些像机器学习、数据挖掘、数据分析以及统计方面的知识非常重要。一名数据科学家需要从数学的角度对数据进行诠释和演示。
  • 使用通用语言进行数据的获取、开采以及建模 。掌握统计编程语言也很重要。类似R,Python或者 MATLAB这样的语言,还有SQL这样的数据库查询语言也是当下最受欢迎且比较抢手的语言。数据提取、研究和假设测试是数据科学实践的核心。
  • 培养强大的计算机科学和软件工程背景 。这个要求数据科学家培养包括Java、C++或者算法和Hadoop方面的知识。这些技能可以用来建设数据系统。

图2:数据科学所关注的领域

数据科学家用到的工具

与典型的程序员不同的的是,程序员使用标准化的工具,而数据科学家趋向于使用大量的总是不断改进的工具。这是因为数据科学家的世界正在快速的进化,很多新的工具还不够成熟和完善。下面我们来列举一些所必要的工具:

数据分析工具:

这里所指的工具实际上仅仅是数据科学家使用的用于数据提取和分析的编程语言。较为典型的工具就是Python、R和 SQL。

数据仓库工具:

数据科学可以选择拥有自己的数据库,他们可以在这里进行数据的提取与分析。MySQL就是一款最受欢迎的处理体量较为合理的数据库的软件。当话题转到大数据领域时,他们通常会使用Hive或者Redshift这样的程序。也许你会吃惊的问,使用CSV文件的数据科学家还会支撑多久。

数据 可视化 工具:

我们经常提到的最普通的数据可视化工具是D3.js和Tableau。对于D3.js而言,如果你能想象出数据可视化的样子,那么你就可以利用这个软件达到你想要的结果。目前Tableau是最受欢迎的数据可视化软件,它可以使来自于数百条输入的编译数据轻而易举的转换为清晰可见的可视化效果。

机器学习工具:

机器学习领域内的刚出现的工具也许每天正处于不断变化之中。广泛使用的工具也许就非 Scikit-learn莫属了,该工具利用Python进行机器学习。之后当然还有SparkMLlib,这是Apache为自己的Spark 和Hadoop使用的机器学习资料馆。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

吴甘沙:驭势位列无人驾驶1.5梯队,GAN可改善深度学习不足

【新智元导读】12月27日的媒体沟通会上,驭势科技CEO吴甘沙带来无人驾驶行业解读和技术分享。他坦言作为创业公司的驭势面临3大难题,第一个就是数据不足的问题。他...

3233
来自专栏机器人网

什么是机器人?看看这些创业者怎么回答

“机器人(Robot)是自动执行工作的机器装置。它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代...

2937
来自专栏java一日一条

为什么开发者应该摒弃敏捷?

“敏捷”俨然成为了热门。毫无疑问,由Scrum Alliance领导的通过ScrumMaster认证的风潮,导致我们现在蜂拥而来成百上千个所谓的“敏捷”教练和培...

543
来自专栏新智元

宇宙智能演化将进入后生物时代,人类不再是衡量智能的标准

【新智元导读】本文探讨了智能演化以及未来超级智能及其认知、形态的可能,以及超级智能 AI 与人类的关系。作者认为,从生物智能到“后生物”智能可能是宇宙中的一种基...

34210
来自专栏大数据挖掘DT机器学习

数据挖掘典型应用:如何做好关联分析

在电商数据运营中,对于客户而言,有两个很重要的指标对于扩大销售规模是很重要的: 第一,提高顾客重复购买次数;第二,提高客户订单中的Baske...

2905
来自专栏机器人网

AI是否会毁灭世界还未可知,但它已经让医疗领域获得“超能力”

据外媒报道,可以说,医疗领域要比其他任何一个行业都要更容易受到现代深度学习技术的影响。尽管存在着大量令人恐慌的人工智能(AI)文章,它们声称AI技术将把人类引向...

3517
来自专栏PPV课数据科学社区

【学习】数据挖掘典型应用:如何做好关联分析?

在电商数据运营中,对于客户而言,有两个很重要的指标对于扩大销售规模是很重要的:第一,提高顾客重复购买次数;第二,提高客户订单中的Basket size(即购物篮...

2637
来自专栏PPV课数据科学社区

干货!浅谈知识图谱的构建与应用

自从2012年Geogle推出自己第一版知识图谱以来,各大互联网企业也纷纷推出了自己的知识图谱产品。知识图谱是把所有不同种类的信息连接在一起而得到的一个关系网络...

3118
来自专栏企鹅号快讯

人工智能已成趋势,C+又将重新焕发光芒

人工智慧从字面上看就是人造的智慧,但是实际上涵盖了不少部分,大家最关心的实际上是人工自主意识,因为网络和电脑已经完成了知识的检索和存储,几大搜索引擎也完成了关键...

1740
来自专栏机器之心

业界 | 投身金融,展示唱功:走向「三次元」的微软小冰

「今天发布会并没有像以往那样,是在微软研究院里举行的。这不是因为我们自信心膨胀了,而是因为今天的小冰版本有太多需要介绍的新特点。」王永东在发布会开场说道。

980

扫描关注云+社区