IBM 招聘数据科学家,看重的是哪些技能和特质?

编者按:求职者有时会问 IBM 如何定义“数据科学家”这一职位。这是一个重要的问题,因为市场需要越来越多的数据科学家,IBM 分析师Seth Dobrin 在本文中详细定义了 IBM 眼中的数据科学家。

第一步是区分真正的数据科学家和从事相关工作的其他专业人员(例如数据工程师,业务分析师和 A I应用开发人员)。为了做这个区分,我们首先定义数据科学的含义。

数据科学的核心是运用科学的方法来解决商业问题。

你可以进一步扩展定义,使用人工智能来解决这些业务问题,进行预测,并优化流程。

根据定义,要实现数据科学的真正潜力,我们需要具有非常特殊的经验和技能的数据科学家,具体来说,我们需要具备运行和完成数据科学项目所需经验和技能的人员:

1、接受过科学训练,有相关学位

2、具备机器学习和统计方面的专业知识,重点在于决策优化

3、拥有 R,Python 或 Scala 的专业知识

4、能够转换和管理大型数据集

5、有能力将上述技能应用于现实世界的商业问题

6、能够评估模型的性能并进行相应地调整

1、接受科学训练,有相关学位

这不是关于学位本身,而是关于你在获得高等学位时学到的东西。 简而言之,学习科学的方法,能够从复杂而抽象的问题开始,将其分解成一系列可验证的假设,你设计实验来测试你的假设,以及你如何分析结果以确定假设是否被证实或证伪。你也可以在学术界之外学习这些技能,甚至通过在线培训,所以学位这一点具有一定的灵活性,但应用科学方法的直接经验是必须的。

拥有高等学位的另一个优点是同行评审过程和发表论文要求的严格性。为了获得发表,候选人必须以允许其他人审阅和作品。还必须提供证据表明结果是有效的,方法是正确的。 这样做需要深刻理解概率和确定性因素之间的差异以及相关性的价值。

2、机器学习和统计方面的专业知识,重点在于决策优化

将科学方法应用于商业问题,可以让我们预测未来会发生什么,从而做出更好的决策。这种预测是人工智能的产物,更具体地说是机器学习。 对于一个真正的数据科学家来说,机器学习和统计的核心技术技能必须的。

3、R,Python 或 Scala 的专业知识

作为一名数据科学家,并不要求你像专业开发人员一样精通编程,但是创建和运行支持数据科学过程的代码的能力是必须的,包括能够统一使用统计和机器学习中流行的数据科学语言。

4、能够转换和管理大型数据集

第四种技能也就是大数据能力。使用 Apache Spark 等分布式数据处理框架的能力是关键。 真正的数据科学家知道如何在数据科学团队的帮助下,从多个来源和多种数据类型中提取数据集。数据本身可能是存在于多个云中的结构化、半结构化和非结构化数据的组合。

5、有能力将上述技能应用于现实世界的商业问题

第五种技能是一种软技能。 这是与非数据科学家进行交流的能力,以确保数据科学团队获得所需的数据资源,并将数据科学应用于正确的业务问题。 掌握这一技能还意味着确保数据科学项目的结果,例如关于业务可能发展的预测得到商业人士的充分理解和操作。这需要良好的讲故事技巧,尤其是将数学概念映射到常识的能力。

6、能够评估模型的性能并进行相应地调整

对于一些人来说,第六个技能是第二个技能的一个方面:机器学习的专长。 我想要分开描述,因为这一点经常是一个好的数据科学家和坏的数据科学家的区别。 缺乏这种技能的数据科学家经常轻易相信已经创建并部署了有效的模型,而事实上他们的模型与训练数据并不匹配。

做一个真正的数据科学家

如果你想成为一个真正的数据科学家,而不是一个没有有抱负的数据科学家或只个数据科学家头衔,我鼓励你掌握全部这六个能力。 数据科学家与业务分析师或数据分析师从根本上不同,业务分析师或数据分析师经常担任数据科学团队的产品所有者,担任向数据科学家提供专业知识的重要角色。

这并不是说业务分析师、数据分析师和其他人不能转型为真正的数据科学家,但要明白,这需要时间,坚持,指导,并一次又一次地将自己应用于真实的困难问题。

编译组出品。编辑:郝鹏程

本文来自企鹅号 - 36氪媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

谷歌大脑背后的大脑Jeff Dean:最快15年实现通用人工智能

【新智元导读】《福布斯》网站今日刊文,专访“谷歌大脑背后的大脑”Jeff Dean。Dean回顾了他自1999年加入至今在公司的不同角色,重点介绍了谷歌大脑的项...

3636
来自专栏云计算D1net

在云端开展深度学习正逢其时

如今,机器学习仍然很流行,而其子集深度学习可能会为企业带来更多的价值。 ? 云计算技术盛会AWS re:Invent 2017即将开幕,人们开始预测AWS公司...

3276
来自专栏人工智能快报

美计算社区联盟白皮书指出应加速认知工具研究

2016年2月22日,美国计算社区联盟(CCC)发布了《加速科学:一项计算科学研究议程》白皮书,旨在推动认知工具的开发,发挥大数据对科学研究的变革性潜力,显著地...

3255
来自专栏数据的力量

【05期】我的数据心经:从数据到智能

1395

企业的AI层和物联网

根据德勤去年的预测,截至2016年底,按收入划分全球100家最大的企业软件公司中有80多家将认知技术融入其产品中。“Gartner还预测,新投资的40%企业将在...

32110
来自专栏大数据文摘

学界 | 人工智能的圣杯:关于可解释AI(XAI)的一切

这期间,在企业客户却也始终存在一种怀疑态度:AI系统做出的产品部署是否真的值得被信赖呢?

432
来自专栏人工智能头条

数据科学家、机器学习工程师与普通的软件工程师有什么不同

1243
来自专栏AI科技大本营的专栏

CCAI 2017 | 漆远:蚂蚁金服 AI 技术大揭秘, 开放“模型服务平台”

7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 ...

35813
来自专栏量子位

机器学习产品宝典:这是谷歌内部总结的七大要点

李林 若朴 编译整理 量子位 报道 | 公众号 QbitAI 产品经理新入机器学习坑,应该注意什么? Google的用户体验设计团队总结了7点,量子位编译如下:...

3334
来自专栏人工智能头条

CCAI 2017 | 漆远:蚂蚁金服 AI 技术大揭秘, 开放“模型服务平台”

783

扫码关注云+社区