亚马逊数据专家十年经验总结:成为数据科学家的关键四步

编者按:本文作者 Karolis Urbonas,文章选自他个人博客。AI 研习社编译。

对于数据科学家这一职业,你了解多少?

——这是个被大公司追捧的职位,供不应求,待遇特别高。职场里“数据科学家”的招聘相当火爆,各种线上线下的培训课程野蛮生长。

这是大多数人对“数据科学家”的印象。

但是,怎样才能成为数据科学家?或者说,一个合格的数据科学家需要具备哪些技能和素养?

具有十年从业经验的亚马逊资深数据分析师 Karolis Urbonas,经常被人请教这一问题。这促使他回顾自己的职业生涯——“我是怎么一步步走到现在的?”“我是怎么成为数据科学家的?”以及,从自我定位和自省的角度反思:“我是一名数据科学家吗?”

自我反思的答案,被他总结成了这篇文章。

Karolis Urbonas

█ Karolis Urbonas:我的职业生涯从投资公司的证券分析师起步,那时候主要用的还是 Excel;之后转到银行业做商务智能(BI,即 business inelligence);再之后去做咨询;最后才来搞所谓的“数据科学”——开发预测模型,摆弄大数据,写代码来做数据分析和机器学习。那时大多数人把这工作称之为数据挖掘。

当数据科学变成一股热潮,我开始试着思索,它和我一直在做的工作有什么不同。也许我应该学习一些新技能,成为真正的“数据科学家”,而不是一个“搞分析”的人?

和所有人一样,我开始修习多门课程,读很多书,修习数据科学专业(和大多数人一样,没有一样是最终做到底的),写了一堆代码。我当时的目标并不只是成为数据科学家,而是成为下面这副数据科学韦恩图中间的“那个”数据科学家:

这幅图在数据科学圈子里称得上是大名鼎鼎。三个大色块分别是:绿色—数学、统计学知识,紫色—资深专家水平,粉色—黑客技术。中间的小色块是三大领域的重合区域,分别代表:中上黄绿色块—机器学习,右下墨绿色块—传统研究,左下紫色块—危险地带,中央灰色块—数据科学家。

但我后来了解到,图中央的那一撮“独角兽”(中间“数据科学家”色块里的这帮人在圈内被称为独角兽)在现实中极其稀少。即便真存在这种人,也大概会是对各个领域都有涉猎、但没有一门精通的“通才”,而非专家。

如今,我在亚马逊带领一支极富才华的数据科学团队,每天搞所谓的大数据。因此我已把自己看做是一名数据科学家。但我认为,这行的水太浑(指的信息方面)、尤其对于新人来说很多问题不够清楚明白。当然,数据科学有很多高深复杂的分支,比如 AI 、机器人学、计算机视觉、语音识别等等(注:AI 出身的学者恐怕会把这些全都看做是 AI 的分支,学科视角不同)。钻研这些领域全都需要相当高的技术、数学造诣,经常还需要一两个 PhD 学位。但如果你只是想要进入几年前被称为商业/数据分析师的数据科学角色,并在企业工作,这是四条帮助你在这个行当生存下去的建议:

第一步

明确你的优先目标和动机,客观评估所掌握的技能,并据此设立现实的目标。

数据科学中有各种职业角色,清楚你现在的知识技能储备,以给自己一个合理的定位十分重要。假设你是一个想要改变职业轨迹的 HR,或许你应该学习 HR 数据分析。假设你是律师,则可钻研法学界的数据应用。事实上,现在所有的行业和商务职能都迫切需要更深层次的洞察力,数据科学技术正在被普遍地采用。

如果你已经有一份工作,可以想办法理解工作中哪些环节可用数据优化,哪些问题可利用数据解决,然后去学习怎么做。这会是一个逐步推进、相对漫长的过程。但你能保住饭碗,并且能从现实任务中学习。如果你是应届生或者在校生,你学习数据科学的时机堪称完美:你有大把机会找出自己最喜欢、最感兴趣的领域——电影?音乐?汽车?普通人想象不出来这些行业雇佣了多少数据科学家。但最重要的,这些人都对所处领域心怀大爱。

第二步

打基础。

数据科学的各个细分领域之间差异很大,但底层技能都是差不多的。有三个领域你必须学好,并打下牢固基础:数据分析,统计学和写代码。你并不需要在每个学科都成为大师,但要牢固掌握这三个领域的基础知识和技巧。

(a)关于数据分析

你需要理解基本的分析技巧,并进行大量练习——比如数据表是什么;怎么合并数据表;对于按照特定方式而组织的数据,主流分析技巧是什么;怎么创建数据集的摘要视图(summary views),怎么从中得出初步结论;探索性数据分析是什么;哪种可视化方法能帮你理解数据并从中学习。这些都很基础,但相信我——掌握了这些之后,你就有了任何数据科学工作所必须的基本技能。

(b)关于统计学

要掌握统计学入门知识——比如,什么时候用平均数,而什么时候要选择中位数;什么情况下用标准差,什么情况下用它完全没意义;为什么平均值会“骗人”,但仍然是最常用的总计价值。我说“入门知识”

的时候,我真的指的是入门。除非你是个数学家,有志成为计量经济学家——那么,请尽情学习高级统计学。如果你没有数学专业 PhD,你只需要花一些时间,保持耐心,直到对基础统计学和概率论有一个不错的掌握。

(c)写代码

学编程是最老套的建议,但的确很靠谱。

你应该从学习用 SQL 查询数据库开始——不管你信不信,数据科学团队的大部分工作时间,是花费在数据的“ pulling”和准备上,而这需要通过 SQL 完成。你还需要学一门数据分析语言(从一门语言开始),R 或 Python 都很合适——对其中一门语言的掌握,会给你的职业选择带来很大不同,许多职位的招聘要求会有这两门语言,虽然不是全部。一开始,你可以聚焦于学习语言的基础,然后再专注钻研如何用它来搞数据分析。另外,在这行立足并不需要你成为一个程序猿——你只需要知道怎么用程序语言来对数据进行分析和可视化。

第三步

数据科学是一门解决实际问题的学问——你需要找到问题并解决它。

职业生涯中我逐渐体会到,成为一名合格数据科学家的最基本要求,是要不停问问题,不停寻找需要解决的问题。我不建议你每时每刻都去寻找问题——这或许会对心理健康造成负面影响。但若下决定干这一行,你就要做好准备成为一个“问题解决专业户”,并且像福尔摩斯或者柯南一样锲而不舍。

我建议从小问题开始,找出你的生命中能受益于数据分析的东西——你会为生活中的各种数据之丰富感到惊讶(即便是难以启齿的数据)。或许你会开始分析你的购物习惯,找出你 email 中的情感流露模式,或者创建漂亮的图表追踪家乡城市的财政状况。数据科学家的责任是“质疑一切,不断发问”:比如,这个市场营销项目是否有效?有没有值得注意的行业趋势?公司产品是否表现不佳需要下马?合作伙伴给的折扣是否合理?这些问题会成为数据科学家眼中的假设,需要用数据分析进行证实或者证伪。假设( hypotheses)是数据科学工作的原材料,你能解决、解释的假设越多,你的能力越高。

第四步

开始实干,而不是把时间精力浪费在计划“做什么”和“怎么做”上面。

这适用于任何学习活动,但对数据科学来说尤其贴切。新人们,请确保从学习的第一天开始你就在“做”。在这一行,把真正的学习晾在一边,而只是“读关于数据科学的东西”,“读应该怎么做”,是个非常普遍、非常容易犯的错误(我自己一开始也是这样)。很多人复制粘贴书里的数据分析代码,然后在非常简单的数据集上运行,把这作为练习。相信我,现实世界里你永远不会遇到这么简单的数据集。

对于你所掌握的知识和技能,确保把它们用于你所感兴趣的领域,然后,你会体会到数据科学的奇妙之处:

写下你的第一行代码,看到它如何失败,陷入僵局,不知道下一步怎么做,寻找解决方法,找了很多却没有一个管用,艰难地自己摸索,结果突然间闯到了下一阶段……这一刻,你大叫一声泪流满面。

这才是真正的学习过程。

“ Learning by doing”,即从实践中学习,是掌握数据科学的唯一方法。你学骑自行车的时候,并不是靠研读《教你怎么骑自行车》,而是直接上去骑,是吧?差不多的道理在这里也适用。不管你学的是什么,要确保你立刻去用它,用真实数据解决真实问题。

“如果你花费过多时间思考一件事,你永远也无法将它完成。”这是李小龙的一句名言。虽然我们不鼓励数据科学家读鸡汤,但是——你明白我的意思。

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-03-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【大咖说】发展大数据不要一味追求数据规模大,要“应用为先”

导读:中国信息化百人会学术委员、中国工程院院士李国杰认为,目前大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处...

37370
来自专栏人工智能头条

BDTC 2015之机器学习关注:金榕、漆远、余轶南的分享,百度、阿里、滴滴、微博的实践

24330
来自专栏机器之心

业界 | 腾讯优图联手Science发布主题报告:计算机视觉的研发和应用

人工智能 (AI) 曾经只是一种存在于科幻领域的科技,而现在,研究实验室已经不断研发出了各种应用 AI 的日常产品。AI 技术的进步很大程度上得益于计算机视觉的...

12520
来自专栏企鹅号快讯

Imagination月度问答:AI被过度炒作了吗?

欢迎大家来到新系列文章的首篇,我们每个月将会在这里讨论这个行业目前面临的一些重大问题。我们将向行业内专家和我们公司内部的专家提问一些问题。第一个问题很简单:“A...

21660
来自专栏大数据文摘

吴恩达:大数据终将帮助机器拥有自主智慧

18480
来自专栏产品成长日志

转型AI产品经理需要掌握的硬知识(一):AI产品经理能力模型和常见AI概念梳理

近几年,从亚马逊, Facebook,到谷歌,微软,再到国内的BAT,全球最具影响力的技术公司都将目光转向了人工智能( AI )。2016年 AlphaGo 战...

29030
来自专栏新智元

【评论】高冷的苹果,能在人工智能上有所作为吗?

【新智元导读】苹果最近邀请科技记者Steven Levy到总部走了一圈,希望向外界介绍其机器学习技术,一反过去低调的姿态。其实以机器学习为代表的人工智能技术在苹...

28130
来自专栏新智元

【微软芮勇】人工智能时代,我们能做什么?

【新智元导读】微软亚洲研究院常务副院长芮勇在《新智元:机器+人类=超智能时代》书中畅想人工智能发展6大阶段,详细介绍微软语音识别、图像识别、牛津计划等多项人工智...

31880
来自专栏summer it专栏

大数据时代(BIG DATA)

结语,正在发生的未来。凡是过去,皆为序曲。历史最悠久的做事方法并不是最好的。大数据时代是名副其实的“信息社会”。大数据给我们带来了巨大的风险,但我们可以建立规范...

27450
来自专栏ATYUN订阅号

MIT将个性化深度学习网络应用于机器人,让AI更有效地评估和治疗自闭症儿童

麻省理工学院媒体实验室的研究人员现在开发了一种个性化的机器学习,帮助机器人使用自闭症儿童独有的数据来评估这些互动过程中,每个孩子的参与度和兴趣。

14750

扫码关注云+社区

领取腾讯云代金券