《数据科学家访谈录》总结·3


01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - 10:Clare Corthell, Drew Conway, Kevin Novak, Chris Moody, Erich Owen 11 - 15:Eithon Cadag, George Roumeliotis, Diane Wu, Jace Kohlmeier, Joe Blitzstein


  1. Eithon Cadag 教育背景:华盛顿大学·商学和信息科学双学位,华盛顿大学·博士,研究方向是将机器学习算法应用于生物学领域。 职业经历:拓扑机器学习公司Ayasdi的经理和首席数据科学家
  • 在研究生课程中锻炼了代码能力

研究生阶段选修的很多计算机课程和其他非计算机课程都需要写大量的代码。并且做过很多和生物相关的项目。

  • “充实”的研究生经历

“我研究生的最后一年几乎就没睡觉!”

  • 统计学的重要性

“数据科学里很重要的一块是对统计学的训练。从根本上来说,“数据科学”这个名词意味着你是一个科学家,而科学家有责任和义务去做出正确结果。如果你做不到这一点,其实你就是会用数据做点漂亮图像的人而已,根本称不上科学家。能够理解你做的东西,并且从统计学的角度去评估是否你的东西是有效而且正确的,这一点非常重要。”

  1. George Roumeliotis 教育背景:悉尼大学·应用数学学士,斯坦福大学博士后,研究方向是等离子天体物理。 职业经历:Dynaptics,JRG Software,财务软件公司Intuit的资深数据科学家&数据创新领袖。 (注:从姓氏判断,George因该是希腊裔)
  • 数据科学的范畴

数据科学自有其规律和底蕴,是一个结合了应用数学、计算机科学、商业资讯和新产品开发的综合职位,最后一项目前在数据科学的比例越来越大。

数据科学家的技术列表中大概包括了统计学、机器学习、SQL和Hadoop,以及一门类似Java一类的主流编程语言。

一个具有商业咨询能力的数据科学家就像是一个资深的麦肯锡咨询师,可以流畅地在商业和技术两个领域腾挪闪转,并且是一名能被人信任的商业顾问或者领袖。这些绝对是很高很难的能力。

  • 技术学习

熟练使用SQL语言和Hadoop绝对是绕不过去的条件。

学会R语言是重中之重。另外,毫无疑问你也需要学会一门主流的编程语言,比如Java或者C++。当然,学会一门主流的脚本语言,例如Python和Perl也是很有用的。

  • 年轻数据科学家最常犯的错误是什么?

首先,你要主动去和身边的非技术人员搞好关系。

其次,尝试用商业流程去看、去分析这个世界。商业流程包括了一个商业活动里所涉及的人员、体系和步骤。概括来说,一个数据科学项目的目的是提高某一项现存的商业流程的利润效率。

  • 一名成功的数据科学家应该具备什么?

一名成功的数据科学家应该有能力去改变他周边的世界。

  • 未来数据科学的走向是怎样的?

数据科学将会带来数据产品的井喷式爆发,提供数据产品的公司与使用数据产品的客户都会快速增长——也就是说,这一项基于大数据和高级分析的科学将会进入千家万户。

  1. Diane Wu 教育背景:西蒙弗雷泽大学·计算机学士,斯坦福大学·遗传学博士,选修了很多计算机科学与机器学习的课程(Andrew Ng的机器学习课程、Daphne Koller的概率图模型(Probabilistic Graphical Models)课、Jeff Heer的数据可视化课以及Jure Leskovec的大数据挖掘课。)。 职业经历:Palantir,MetaMind。
  • 在Palantir(注:这家公司的老板是Peter Thiel)的工作

将定性的问题转换为定量的问题来研究(比如找到不错的替代指标来做出正确的结论)、统计(对数据做计算操作)、沟通交流(用易于被理解的方式展示数据)

  • 卓越的数据科学家与普通数据科学家之间的区别在哪里?

需要同时能从工程学和统计学两个角度去思考问题。你必须要思考什么样的统计检测方法是正确的,从什么角度去看问题,如何去用软件工程实现你的解决方案,以及如何玩转那些体量非常大的数据集。还需要能用清晰易懂的方式去展示你的结果。

  • 数据科学的未来?

我觉得在未来10年,我们将会出现数据科学之外的很多新名词,因为人们终将意识到他们在寻找的人是怎样的(分析师或者预测建模师)。

  1. Jace Kohlmeier 教育背景:堪萨斯大学·数学和计算机双学位,普林斯顿大学林论计算科学硕士。 职业经历:Citadel,Khan Academy数据科学主管。
  • 在Citadel是如何学习的?

“我的方法——可能不是最优的方法——就是读书。”

  • 哪些技能是非常基础而且核心的?

定量分析思维。编程能力。设计模型。

  • 如何锻炼沟通能力?

“我当时录制了几盘尝试扮演各种商业角色的录像带。然后我看了那些录像带,并且惊愕地看着自己的肢体语言,听着自己的发音怪癖。直到今天我都在努力改正这方面的问题。”

“我的另一个进步方式是,努力与那些非常外向的人结伴。”

  1. Joe Blitzstein 教育背景:加州理工大学·数学学士,斯坦福大学·数学博士 职业经历:哈佛大学应用统计专业教授
  • 概率论简介课程

Joe在斯坦福的概率论课程非常受欢迎,有推特账号@stat110和书《Introduction to Probability》(这本书真的非常好,推荐阅读,但只有英文版,下载地址:https://github.com/iamseancheney/pythonbooks/blob/master/Introduction%20to%20Probability%20-%20Blitzstein.pdf)。

  • 讲故事、沟通交流和可视化在数据科学中分别具有怎样的作用?

“但是我觉得,能从数据中获得可以解释的正确结果,并且将它告诉更多的人,这绝对是一种艺术。”沟通交流其实包括了与你自己的沟通交流!推荐Edward Tufte的书《The Visual Display of Quantitative Information》。

  • 通过对别人讲授这些知识来巩固学习

“你必须要思考应该强调什么东西,必须用那些非常常规的语言去讲授那些不那么常规的专有名词。你还要回想你一开始学习这些概念的时候是怎么理解的,想到一路上你越过的那些障碍和绊脚石,知道重点和核心在那里。这一招对于任何人都有用。”

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

CNCC 2016 | 中科院谭铁牛:大数据时代的模式识别

编者注:谭铁牛现为中国科学院副院长、中科院自动化所智能感知与计算研究中心主任,他是中国科学院院士、英国皇家工程院外籍院士、发展中国家科学院(TWAS)院士、巴西...

43360
来自专栏前沿科技

中兴智能视觉大数据:未来五年人脸识别市场规模将保持年均25%的增长速度

中兴智能视觉大数据报道:人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸...

33350
来自专栏大数据文摘

可视化| 抗癌新进步:从热迹视角观察细胞内部

22760
来自专栏吉浦迅科技

赢了围棋还能做面包?深度学习能够为您的企业带来什么好处?

您也许不是 F1 赛车的狂热车迷,但是,很难不去欣赏这样迷人的机器。流线造型、美丽车身、疾速飞驰、全车充斥着迷人的科技,甚至巴望着自己狭窄的小车也能有一点点的相...

34150
来自专栏量子位

一个耗资数百万的AI数据集,和它背后的90后超人们

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI ? 不够智能的人工智能,往往被调侃成“人工智障”,但不是所有人都清楚知道“智障”的原因。 199...

35840
来自专栏机器之心

观点 | LeCun卸任成剧变?看FAIR研究员田渊栋如何看待

35490
来自专栏AI科技评论

从谷歌TPU谈起,人工智能正如何撼动芯片市场

编者按:本文原作者为 Wired 高级作家 Cade Metz。原标题为《How AI Is Shaking Up the Chip Market》。以下为雷锋...

33480
来自专栏新智元

AI 算法已趋同?亿分之一的人脸识别辨识度意味着什么?

20030
来自专栏新智元

武汉大学蔡恒进:论智能的起源、进化与未来

【新智元导读】人工智能(AI)在围棋领域完胜人类是里程碑式的事件,意味着计算机的计算力和网络深度足以模拟人脑。无论AI存在多少潜在隐患,类脑智能已是势在必行。图...

37250
来自专栏智能算法

史上最全人工智能进阶干货

无论是科研院所,商业巨头还是初创企业,各行各业都在大力开发或者引进人工智能,由于储备不足,导致人工智能人才现在出现缺口,而且非常巨大。

42920

扫码关注云+社区

领取腾讯云代金券