数据科学家的自我修养

编者按:谨以此文向著名统计学家、中国人民大学统计学院教授吴喜之教授致敬!

正文:

继云计算之后,大数据已然成为IT行业的热点。《哈佛商业评论》更是宣称“数据科学家”是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。这里我不想重复什么是大数据,什么是数据科学,而是直接从数据科学家这样一个神秘的群体开始让大家对大数据和数据科学有个基本的认识。

认识数据科学家

“数据科学家”是舶来语,翻译自英文“Data scientist”,用来描述“一些能综合运用编程和统计技术的人,致力于通过各种方式让将数据更发挥作用”的一个群体。数据科学家是一个头衔,而不是职位。狭义上“数据科学家”是有一定影响力的数据科学和人工智能专家。如图中的神经网络之父Geoffrey Hinton 、神经网络专家Yann以及大名鼎鼎的吴恩达。

广义上数据科学家是一个泛指,类似于“网红”,在国内我们听到的数据分析师、数据挖掘工程师、算法工程师和大数据工程师也都可以被称为“数据科学家”。

毫无疑问,这是一个自带光环、高大上的群体,如果你有志于成为他们的一员,可以从以下这么几个方向开始。

明确学习目标

首先你要有自己职业规划,知道数据分析和大数据是做什么的、能解决什么问题,给自己定一个小目标。一个有经验的数据科学家:最少要有2到3年工作经验,而工作经验体现在运用数据科学处理各种商业问题的能力上,同时需要具备以下技能:

  • 一流的分析技巧:探索凌乱的数据集并提取洞察的能力;
  • 在SQL运用能力方面是一名内行;
  • 能很好的掌握假设检验、分配、回归分析和贝叶斯方法;
  • 有与商业方面的机器学习经验;
  • 对于Python语言和Jupyter环境有经验;
  • 对于pandas、numpy、sk-learn和NLTK有一定操作经验;
  • 具备写编写Latex格式文档的能力;
  • 在统计学,运筹学,经济学,计算机科学,或其它相关领域具有本科或硕士学历。

未来数据分析是一种工具,在金融、互联网、电子商务、公共服务、医疗健康等领域非常广泛,职位上面偏业务的有数据分析师、数据产品经理、数据规划师等职位,偏技术的有大数据工程师、大数据架构师、算法工程师等职位。

◆数据分析师:业务线,负责通过数据分析手段发现和分析业务问题,为决策作支持。

◆数据挖掘工程师:偏技术线,负责通过建立模型、算法、预测等提供一些通用的解决方案,当然也有针对某业务的。

◆数据工程师:技术线,负责搭建仓库搭建、数据的存储、处理、计算处理、报表开发等。

吴喜之语录:

如果你擅长数学,有很清晰的逻辑思维能力,有技能组合,就可能当上数据科学家。相比专长于任何特定编程语言,泛型变成技巧更重要。真正适合干这一行的人,会在业余时间里编程序、分析数据。

学好数学相关课程

数学是学科之王,物理、化学的终极领域就是数学。工业革命的首先是科学技术的革命,数学在其中扮演了非常重要的作用,17世纪的英国、18世纪的法国、德国,19世纪的俄国和美国,无一例外是数学强国。数学科学分析和研究的对象就是业务和数据的关系,而数据在脱离了上下文的时候就是数字,要处理数据必须运用大量的软件工具和数学知识。

如果你还在学校,最重要任务就是打好数学基础,学好高等数学、线性代数、概率与数理统计、数值分析、多元分析、泛函分析等相关课程。数学是一门基础学科,需要长时间的学习和知识积累,而且数学课程离开学校是没地方补的,数据分析的其他能力(如编程)可以通过其他渠道学习。

吴喜之语录:

统计学对课程基础的要求比较高,没有办法速成。单纯的编程比较容易学。

多关注领域知识(Domainknowlage)

学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。大数据是技术工具,最终的应用需要深入理解业务企业的业务场景和商业模式,甚至有人说不懂业务就不要谈大数据,可见领域知识的重要性。近几年在顶尖科学杂志《Nature》与《Science》上发表的大数据文章都是来自行业专家,而并非计算机专家,这从另外一个方面反映了业务知识的重要性。在PPV课课堂上有一个案例是《电力系统偷漏电分析》,在这个案例中,如果你不了解工厂的生产规律是无法进行特征提取的,更不要说建立有效的数学模型。

吴喜之语录:

最根本的就是领域知识,你必须了解领域知识,你才能够知道该怎么做。如果你仅仅是一个干巴巴的统计学家,你不了解统计,你可以做很多荒谬的事,不了解实际问题。

掌握泛编程能力

先看一份国外的调查报告《O’Reilly关于数据科学职位薪酬研究》,研究的983个样本来自45个国家以及美国45个州的不同行业。通过本次调查的64个问题,研究了数据科学家、分析师与工程师所要使用的工具,工作涉及的任务以及薪酬的内容。

调查结果发现包括:

1. Python和Spark是对薪水贡献最大的两大工具。

2. 在那些写代码的人中,写代码最多的人最高。

3. SQL,Excel,R和Python是最常用的工具。

4. 参加会议越多,赚得更多。

5. 做同样的事情,女人比男人的工资少。

6. 使用工具方面薪资差别最显着在于,那些主要使用Excel,SQL和少量关闭源工具的人员以及使用更多开源工具并花费更多时间编码的人员之间。

7. R用于各个部门:即使是那些不编程太多或者使用很多开源工具的人,也会使用R.

8. 年轻的一批大量使用Python的数据科学家、数据分析师比起原来使用大量各种工具的人,获得的薪水更高。

简单的可以理解为数据科学家这个职位写代码越多工资越高。

那么对于没有编程基础和计算机背景的同学而言,是不是就无法从事数据科学了呢?也不尽然,借助于脚本语言或类脚本语言(SQL/R/matlab/各种shell),你只要掌握了算法抽象的逻辑和原理,也可以很好的使用这些工具进行数据处理和数据分析。

所谓的泛编程也称之为泛化编程或者泛型编程,原本的意思是指编程过程中忽略数据类型,只关注算法抽象的一种编程方法。借用这种思路,类似SQL/R/matlab这样的类脚本语言其实都可以理解泛编程工具。也就是说,你即使不是一个程序员,也需要掌握如何对算法进行抽象,如何用计算机工具进行数据处理,而SQl/R/Matlab以及各种shell语言为广大的非计算机领域的同学从事数据科学提供了更适合他们的计算机工具,这一点对没有编程基础的业务数据分析师、统计分析师而言显的尤为重要。

吴喜之语录:

计算机科学,不是一两个盗版傻瓜软件点鼠标就是计算机科学了。还加上网络漫游能力和泛型编程能力,我说的这个泛型编程能力是计算机编程理念。

尝试跨界

跳出学科界线,尝试跨界学习,关注人文、经济、心理学、运筹学这些领域,今年的诺贝尔经济学奖得主理查德·塞勒1967年获凯斯西储大学学士学位,1970和1974年分获罗彻斯特大学文学硕士学位和哲学博士学位,而他后来研究的领域和他的专业却没有直接关系,事实上他专注的是心理学、经济学等交叉学科的研究,并最终获得了成功,说他是跨界之王一点也不为过。

优秀的数据科学家是一些能综合运用编程和统计技术的人,他们致力于通过各种方式让将数据更发挥作用,他们通常横跨数学、计算机、人工智能等多个领域。你需要学好统计学和机器学习相关课程,并尝试去了解两种文化之间的差异。

吴喜之语录:

你离得越远看得越清楚,站得越高了解的全局越好。整个统计学界的问题太多,所以就需要改造。把它从数学假定主导的思维方式改造过来,从模型驱动改变成数据驱动或问题驱动,机器学习是实现这种改造的一个最佳方式。

要有批判性思维

我们都是有偏见的,虽然我们希望我们不是。我们在民族、种族、性别、年龄、阶层等方面有着不同的三观,要防止把偏见注入到算法中,这种情况在做模型假设以及在为训练数据打标签时都有可能发生。

举个例子:美国新闻机构“人民(propublica)调查了一个称为“累犯风险“的算法。这个算法在佛罗里达州的写着期间被法官采用。伯纲德,左边的那个黑人,10分中得了满分;右边迪伦,10分中得了3分。10分代表高风险,3分代表低风险,他们都因为持有毒品而被带进了监狱,他们都有犯罪记录,但迪伦曾有一个重罪,而伯纳德没有。打分结果和实际情况是存在偏差的,这是由于人的偏见导入的。

思维的不足和偏差,一直是数据分析实践中错误和问题的重要来源之一。为此,你必须保持警惕,尤其是你的分析结果将成为冲裁和判断真相的重要依据时。

吴喜之语录:

要有基于数据的批判性思维,而不是基于主观经验、权威或者是局部的知识,也不是迎合取宠式的思维。 科学意味着没有权威,不要迷信那些权威,中国人喜欢崇拜权威。任何科学研究的目的是基于数据,颠覆旧的理论,这样才能往前进,所以你必须要有科学精神。

快速的自学能力

大数据时代的知识,没有像印刷时代对知识结构视为必须具备的“基础”知识,知识是非线性的,可以自由组合、切割,处于一种分散和游离的状态。未来,你必须具备快速自学和捕捉知识的能力,从一个“知识储备,学以致用”的过程,向“知识构建,用时再学”的过程转变,学习将是一个持续的,乃至终身学习的过程。为此你需要具备一种快速而灵活的学习方式。

著名统计学家、中国人民大学统计学院吴喜之教授在授课之余仍然坚持写代码和调试程序,作为青年一代应以他为榜样,不断从知识海洋中探索和学习。

写在最后:

如果你想入行,可以先看一下这几篇文章:

了解自己的兴趣和特长看下《与大数据相关的工作职位有哪些?》这篇文章。

了解数据科学家入门途径可以看下《学习机器学习首要条件不是数学而是数据分析》

了解数据科学家需要学习的数学知识可以看下《学习机器学习需要具备怎样的数学水平》这篇文章。

推荐两门吴老先生的著作,第一本适合入门,第二本适合研究生和进阶学习: 1、《统计学:从数据到结论》 2、《复杂数据统计方法基于R的应用》

End

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-10-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java一日一条

我是如何拿到硅谷Offer的:告诉你算法面试的秘密

原视频地址:www.youtube.com/watch?v=ub1Zwz_nivU

2511
来自专栏PPV课数据科学社区

给外行能看懂的科普:这就叫自然语言处理

前几年曾经马少平老师的引荐,为某科普图书写过一篇短文介绍自然语言处理。如果只是介绍NLP的概念、任务和挑战,应该可以参考这篇小文。原文如下,仅供参考。 自然语言...

3486
来自专栏数据猿

【案例】渤海银行——在线业务自动化信用审核

3103
来自专栏PPV课数据科学社区

【职业】关于数据科学家与数据科学最全面深入的学习阶梯总结及就业指导

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 “数据科学”...

2793
来自专栏新智元

Stuart Rusell 专访:斯坦福百年报告否定人类水平 AI,不可理喻

【新智元导读】 UC Berkeley 大学计算机科学系教授,人工智能著名教材《Artificial Intelligence: A Modern Approa...

42218
来自专栏数据科学与人工智能

【数据挖掘】如何系统地学习数据挖掘?

问题:如何系统地学习数据挖掘? 虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉...

2908
来自专栏镁客网

全球AI泰斗Stuart Rusell:研究人工智能太诱人了,不可抗拒

1896
来自专栏数据科学与人工智能

【数据科学家】如何成为一名数据科学家?

一、数据科学家的起源 “数据科学”(DataScience)起初叫”datalogy “。最初在1966年由Peter Naur提出,用来代替”计算机科学”(丹...

2486
来自专栏程序员互动联盟

学历不高,为啥学不好编程?

最近一直在思考这个问题,部门里面有两个培训出来的,学历不高的小伙子,在明确任务情况下,做的很快功能实现的也差不多。一旦遇到问题,很容易钻牛角,在时间很短的时间内...

3685
来自专栏PPV课数据科学社区

【推荐】数据科学家与数据科学。

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 "数据科学"...

2876

扫码关注云+社区

领取腾讯云代金券