01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman
06 - 10:Clare Corthell, Drew Conway, Kevin Novak, Chris Moody, Erich Owen
11 - 15:Eithon Cadag, George Roumeliotis, Diane Wu, Jace Kohlmeier, Joe Blitzstein
研究生阶段选修的很多计算机课程和其他非计算机课程都需要写大量的代码。并且做过很多和生物相关的项目。
“我研究生的最后一年几乎就没睡觉!”
“数据科学里很重要的一块是对统计学的训练。从根本上来说,“数据科学”这个名词意味着你是一个科学家,而科学家有责任和义务去做出正确结果。如果你做不到这一点,其实你就是会用数据做点漂亮图像的人而已,根本称不上科学家。能够理解你做的东西,并且从统计学的角度去评估是否你的东西是有效而且正确的,这一点非常重要。”
数据科学自有其规律和底蕴,是一个结合了应用数学、计算机科学、商业资讯和新产品开发的综合职位,最后一项目前在数据科学的比例越来越大。
数据科学家的技术列表中大概包括了统计学、机器学习、SQL和Hadoop,以及一门类似Java一类的主流编程语言。
一个具有商业咨询能力的数据科学家就像是一个资深的麦肯锡咨询师,可以流畅地在商业和技术两个领域腾挪闪转,并且是一名能被人信任的商业顾问或者领袖。这些绝对是很高很难的能力。
熟练使用SQL语言和Hadoop绝对是绕不过去的条件。
学会R语言是重中之重。另外,毫无疑问你也需要学会一门主流的编程语言,比如Java或者C++。当然,学会一门主流的脚本语言,例如Python和Perl也是很有用的。
首先,你要主动去和身边的非技术人员搞好关系。
其次,尝试用商业流程去看、去分析这个世界。商业流程包括了一个商业活动里所涉及的人员、体系和步骤。概括来说,一个数据科学项目的目的是提高某一项现存的商业流程的利润效率。
一名成功的数据科学家应该有能力去改变他周边的世界。
数据科学将会带来数据产品的井喷式爆发,提供数据产品的公司与使用数据产品的客户都会快速增长——也就是说,这一项基于大数据和高级分析的科学将会进入千家万户。
将定性的问题转换为定量的问题来研究(比如找到不错的替代指标来做出正确的结论)、统计(对数据做计算操作)、沟通交流(用易于被理解的方式展示数据)
需要同时能从工程学和统计学两个角度去思考问题。你必须要思考什么样的统计检测方法是正确的,从什么角度去看问题,如何去用软件工程实现你的解决方案,以及如何玩转那些体量非常大的数据集。还需要能用清晰易懂的方式去展示你的结果。
我觉得在未来10年,我们将会出现数据科学之外的很多新名词,因为人们终将意识到他们在寻找的人是怎样的(分析师或者预测建模师)。
“我的方法——可能不是最优的方法——就是读书。”
定量分析思维。编程能力。设计模型。
“我当时录制了几盘尝试扮演各种商业角色的录像带。然后我看了那些录像带,并且惊愕地看着自己的肢体语言,听着自己的发音怪癖。直到今天我都在努力改正这方面的问题。”
“我的另一个进步方式是,努力与那些非常外向的人结伴。”
Joe在斯坦福的概率论课程非常受欢迎,有推特账号@stat110和书《Introduction to Probability》(这本书真的非常好,推荐阅读,但只有英文版,下载地址:https://github.com/iamseancheney/pythonbooks/blob/master/Introduction%20to%20Probability%20-%20Blitzstein.pdf)。
“但是我觉得,能从数据中获得可以解释的正确结果,并且将它告诉更多的人,这绝对是一种艺术。”沟通交流其实包括了与你自己的沟通交流!推荐Edward Tufte的书《The Visual Display of Quantitative Information》。
“你必须要思考应该强调什么东西,必须用那些非常常规的语言去讲授那些不那么常规的专有名词。你还要回想你一开始学习这些概念的时候是怎么理解的,想到一路上你越过的那些障碍和绊脚石,知道重点和核心在那里。这一招对于任何人都有用。”