什么才算是真正的数据科学家?你算么?

Data Scientist,数据科学家,太火了,已经成为新一代改变世界的职业,引得每一个人都想往这个方向转。

学 CS 的觉得做码农太底层,给人打工,要转数据科学家,完美。

学统计的觉得这个不需要过多的 Coding,适合自己,要转数据科学家,完美。

学商科的觉得终于自己也可以成为科学家了,要转数据科学家,完美。

似乎每个人都觉得自己可以成为,应该成为,也一定能够成为一名数据科学家。

然而现实呢?

一片混乱。

“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it” — Dan Ariely

人们的想象之中的独角兽

几乎所有赞美数据科学家的人,都认为数据科学家是这样一类人:

  • 精通算法。例如各种机器学习算法(聚类,分类,NLP,CV,IR, etc.),理解统计的原理。
  • 全栈开发能力。能够完成从数据清洗,到产品上线的全部工作,且能做各种数据可视化与报表。
  • 有资深的领域知识。了解行业背景,企业运行规律,懂得 Business、Marketing、Finance、Operations 等等知识,能够帮助企业做决策。
  • 除了技术能力要求高,同时还要有相当的软实力,比如沟通和写作的能力,比如领导团队的能力等等。

哇,真是全能的独角兽。

可能有这样的人吗?当然,这个世界这么大,出几个超牛的人并不是没有可能。

你可以追求成为这样一个人,但是认为所谓数据科学家就等于这一类人,并没有什么意义。

但是,从现实角度来讲,你并不需要成为这样一个人才能为企业带来价值。大量和数据相关的职责都被认为是和数据科学家相关的,因此,更重要的是,找到合适自己的位置,使用新技术解决问题,创造收益。

两类数据科学家

是的,Data Scientist 并不是一个 Well Defined 的职位,在每个公司的职责都不一样。但是,不论怎么样,这个世界上不可能凭空出现一个职位:这个职位所解决的问题是以前从来没出现过的,也没人知道该怎么解决的。或许我们可以慢慢逼近人们想象中的那个全能的独角兽,但现在,数据科学家所担当的职责,一定会跟现有的职位大量的重合。

现实中的数据科学家是怎么样的呢?常见的数据科学家被分为两类。引用 Quora 上 Michael Hochster 的一个回答:

Type A Data Scientist: The A is for Analysis. This type is primarily concerned with making sense of data or working with it in a fairly static way. The Type A Data Scientist is very similar to a statistician (and may be one) but knows all the practical details of working with data that aren’t taught in the statistics curriculum: data cleaning, methods for dealing with very large data sets, visualization, deep knowledge of a particular domain, writing well about data, and so on. Type B Data Scientist: The B is for Building. Type B Data Scientists share some statistical background with Type A, but they are also very strong coders and may be trained software engineers. The Type B Data Scientist is mainly interested in using data “in production.” They build models which interact with users, often serving recommendations (products, people you may know, ads, movies, search results).

我对于这两类的理解稍有出入,但也大体相同:

Type A 数据科学家:偏 Analysis,一切为数据驱动的决策服务。主要的工作是在清理数据,做分析,找 Insight,做 Report 等等。可以说是某类升级版的 Analyst 或者 BD。

一方面这意味着对你的你要求跟做 BD 或 Analyst 的要求一样甚至更高,对市场了解如何?对行业了解如何?对公司运作了解如何?而所谓 Machine Learning 等工具只是技术与手段,能够帮助更好地解决问题,但是问题有哪些,才是根本的问题。

另一方面传统 Analyst 不足的地方在于随着数据越来越大,越来越复杂,如果要更快更准,需要使用更好的模型(机器学习等),在更原始的数据中探索与分析,不能只等待其他人把数据都处理好。因此需要更强的数据处理、分析能力和对于新模型、工具的掌握和理解。

往这个方向发展,要补齐 Marketing、Business、Finance、Operation 等知识,同时掌握各种机器学习的算法与工具。

Type B 数据科学家:偏 Research & Product,在算法即产品的职责下让算法能够与产紧密结合,甚至主导算法驱动的产品。主要的工作是把算法从 Research 做到 Product。

一方面要对各类机器学习的算法了解足够深刻,了解各种机器学习算法的常见应用(NLP,CV,Recommendation,IR,etc.)。同时对工程要求更高,毕竟做 Prototype 和上 Production 是完全不一样的。

另一方面要对产品的需求有更深层次的理解,以及了解公司的业务逻辑,因为随着不少算法的成熟,产品的需求已经不仅仅来自于 product-market-fit,而是来自于算法本身的进步,因此能够把成熟的算法推向产品是非常重要的能力。

往这个方向发展,Coding 的要求与所有通用 Software Engineering 的要求一样,该修 CS 课可能一样都不能少,同时要能了解公司的业务逻辑,更好地推动产品的上线,让不可能变成可能。

职业生涯的起步与发展

既然典型的数据科学家是两类,那么对照着这两类对自己的技能树查缺补漏就行。要么补业务知识,要么补代码能力,要么补机器学习相关的技术与工具。总之,不要一味追求所谓的新算法,而没有基础的分析或者工程能力,这样并不能解决任何问题,也不能带来任何价值。

从一位分析师或者程序员开始职业生涯,都是很好的选择。

然而,职业生涯的追求肯定不是一个 Title,而是某些能力,对照着理想中的独角兽差缺补漏,确实是非常好的办法。

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-04-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

基于知识图谱的人机对话系统 | 公开课笔记

人机对话系统,或者会话交互,有望成为物联网时代的主要交互方式。而语言的理解与表达和知识是密切联系的,知识图谱作为一种大规模知识的表示形式,在人机对话系统中各模块...

45210
来自专栏机器学习算法与Python学习

为什么程序员一定要学深度学习

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 对于深度学习,我也是一个初学者,能力...

35340
来自专栏大数据文摘

AI迷路了怎么办?Facebook正在训练AI学会问路

如果你在初来乍到的城市里迷了路,身边又没有地图或者手机导航,你可能会自然而然地向其他人问路。

5700
来自专栏数据科学与人工智能

【数据挖掘】数据挖掘#商业智能(BI)数据分析挖掘概念

数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结,希望你喜欢。 分析型客户关系管理(Analytical CRM/aCRM): 用于...

32490
来自专栏数据科学与人工智能

【机器学习】机器学习编程语言之争狼烟再起,Python称霸?

随着科技的发展,拥有高容量、高速度和多样性的大数据已经成为当今时代的主题词。数据科学领域中所采用的机器学习编程语言大相径庭。究竟哪种语言最适合机器学习成为争论不...

19980
来自专栏全栈数据化营销

精益数据分析:对商业模式、创业阶段、数据指标、数据测试方法的数据分析

随着“数据驱动产品设计”的理念被越来越多的公司所认可,越来越多的人认识到数据分析的重要性,数据分析也成为产品经理的一项必备技能。但是到我们在进行数据分析的过程中...

38850
来自专栏喔家ArchiSelf

《人工智能简史》读后

这个春节有些心神不定,只得靠读书和学习平复心情。《人工智能简史》去年很火,在京东的销售榜中也很考前,未能免俗,自己抽空读了一遍,随记随想。

10450
来自专栏钱塘大数据

2017 AI成熟度曲线图

概要:AI以一种更实际的形态作为数字化商业的关键组成要素获得了新生。 来源:智能机器人资讯分享 分析 你需要知道的 AI以一种更实际的形态作为数字化商业的关键组...

39790
来自专栏新智元

【八年苦读】伯克利研究生解决量子计算验证问题

新智元报道 来源:Quantamagazine 作者:Erica Klarreich 编辑:三石、肖琴

16470
来自专栏ATYUN订阅号

MIT:在虚拟环境中使用活动模拟器教智能体做家务

对于很多人来说,家务事是一个麻烦但不可避免的生活中的一部分,我们常常会推迟或做的少一点。但是如果有机器人助理可以帮助减轻负担呢?

8850

扫码关注云+社区

领取腾讯云代金券