专栏首页SeanCheney的专栏《数据科学家访谈录》总结·3

《数据科学家访谈录》总结·3


01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - 10:Clare Corthell, Drew Conway, Kevin Novak, Chris Moody, Erich Owen 11 - 15:Eithon Cadag, George Roumeliotis, Diane Wu, Jace Kohlmeier, Joe Blitzstein


  1. Eithon Cadag 教育背景:华盛顿大学·商学和信息科学双学位,华盛顿大学·博士,研究方向是将机器学习算法应用于生物学领域。 职业经历:拓扑机器学习公司Ayasdi的经理和首席数据科学家
  • 在研究生课程中锻炼了代码能力

研究生阶段选修的很多计算机课程和其他非计算机课程都需要写大量的代码。并且做过很多和生物相关的项目。

  • “充实”的研究生经历

“我研究生的最后一年几乎就没睡觉!”

  • 统计学的重要性

“数据科学里很重要的一块是对统计学的训练。从根本上来说,“数据科学”这个名词意味着你是一个科学家,而科学家有责任和义务去做出正确结果。如果你做不到这一点,其实你就是会用数据做点漂亮图像的人而已,根本称不上科学家。能够理解你做的东西,并且从统计学的角度去评估是否你的东西是有效而且正确的,这一点非常重要。”

  1. George Roumeliotis 教育背景:悉尼大学·应用数学学士,斯坦福大学博士后,研究方向是等离子天体物理。 职业经历:Dynaptics,JRG Software,财务软件公司Intuit的资深数据科学家&数据创新领袖。 (注:从姓氏判断,George因该是希腊裔)
  • 数据科学的范畴

数据科学自有其规律和底蕴,是一个结合了应用数学、计算机科学、商业资讯和新产品开发的综合职位,最后一项目前在数据科学的比例越来越大。

数据科学家的技术列表中大概包括了统计学、机器学习、SQL和Hadoop,以及一门类似Java一类的主流编程语言。

一个具有商业咨询能力的数据科学家就像是一个资深的麦肯锡咨询师,可以流畅地在商业和技术两个领域腾挪闪转,并且是一名能被人信任的商业顾问或者领袖。这些绝对是很高很难的能力。

  • 技术学习

熟练使用SQL语言和Hadoop绝对是绕不过去的条件。

学会R语言是重中之重。另外,毫无疑问你也需要学会一门主流的编程语言,比如Java或者C++。当然,学会一门主流的脚本语言,例如Python和Perl也是很有用的。

  • 年轻数据科学家最常犯的错误是什么?

首先,你要主动去和身边的非技术人员搞好关系。

其次,尝试用商业流程去看、去分析这个世界。商业流程包括了一个商业活动里所涉及的人员、体系和步骤。概括来说,一个数据科学项目的目的是提高某一项现存的商业流程的利润效率。

  • 一名成功的数据科学家应该具备什么?

一名成功的数据科学家应该有能力去改变他周边的世界。

  • 未来数据科学的走向是怎样的?

数据科学将会带来数据产品的井喷式爆发,提供数据产品的公司与使用数据产品的客户都会快速增长——也就是说,这一项基于大数据和高级分析的科学将会进入千家万户。

  1. Diane Wu 教育背景:西蒙弗雷泽大学·计算机学士,斯坦福大学·遗传学博士,选修了很多计算机科学与机器学习的课程(Andrew Ng的机器学习课程、Daphne Koller的概率图模型(Probabilistic Graphical Models)课、Jeff Heer的数据可视化课以及Jure Leskovec的大数据挖掘课。)。 职业经历:Palantir,MetaMind。
  • 在Palantir(注:这家公司的老板是Peter Thiel)的工作

将定性的问题转换为定量的问题来研究(比如找到不错的替代指标来做出正确的结论)、统计(对数据做计算操作)、沟通交流(用易于被理解的方式展示数据)

  • 卓越的数据科学家与普通数据科学家之间的区别在哪里?

需要同时能从工程学和统计学两个角度去思考问题。你必须要思考什么样的统计检测方法是正确的,从什么角度去看问题,如何去用软件工程实现你的解决方案,以及如何玩转那些体量非常大的数据集。还需要能用清晰易懂的方式去展示你的结果。

  • 数据科学的未来?

我觉得在未来10年,我们将会出现数据科学之外的很多新名词,因为人们终将意识到他们在寻找的人是怎样的(分析师或者预测建模师)。

  1. Jace Kohlmeier 教育背景:堪萨斯大学·数学和计算机双学位,普林斯顿大学林论计算科学硕士。 职业经历:Citadel,Khan Academy数据科学主管。
  • 在Citadel是如何学习的?

“我的方法——可能不是最优的方法——就是读书。”

  • 哪些技能是非常基础而且核心的?

定量分析思维。编程能力。设计模型。

  • 如何锻炼沟通能力?

“我当时录制了几盘尝试扮演各种商业角色的录像带。然后我看了那些录像带,并且惊愕地看着自己的肢体语言,听着自己的发音怪癖。直到今天我都在努力改正这方面的问题。”

“我的另一个进步方式是,努力与那些非常外向的人结伴。”

  1. Joe Blitzstein 教育背景:加州理工大学·数学学士,斯坦福大学·数学博士 职业经历:哈佛大学应用统计专业教授
  • 概率论简介课程

Joe在斯坦福的概率论课程非常受欢迎,有推特账号@stat110和书《Introduction to Probability》(这本书真的非常好,推荐阅读,但只有英文版,下载地址:https://github.com/iamseancheney/pythonbooks/blob/master/Introduction%20to%20Probability%20-%20Blitzstein.pdf)。

  • 讲故事、沟通交流和可视化在数据科学中分别具有怎样的作用?

“但是我觉得,能从数据中获得可以解释的正确结果,并且将它告诉更多的人,这绝对是一种艺术。”沟通交流其实包括了与你自己的沟通交流!推荐Edward Tufte的书《The Visual Display of Quantitative Information》。

  • 通过对别人讲授这些知识来巩固学习

“你必须要思考应该强调什么东西,必须用那些非常常规的语言去讲授那些不那么常规的专有名词。你还要回想你一开始学习这些概念的时候是怎么理解的,想到一路上你越过的那些障碍和绊脚石,知道重点和核心在那里。这一招对于任何人都有用。”

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 《数据科学家访谈录》总结·4

    01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - ...

    SeanCheney
  • 《数据科学家访谈录》总结·2

    01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - ...

    SeanCheney
  • 《数据科学家访谈录》总结·1

    求职需要你每一次都针对不同的聊天对象修改对自己的介绍和描述。其中的精髓正和做数据科学如出一辙,你需要不断地在展示自己和研究如何展示自己之间反复循环。

    SeanCheney
  • 【数据科学】二十一世纪最性感的职业:数据科学家

    性感事物方面的权威《哈佛商业评论》宣布,“数据科学家” 是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。 不管老板...

    陆勤_数据人网
  • 【职业】您为什么要成为数据科学家?

    小编邀请您,先思考: 1 你认为数据科学家是做什么的? 2 你打算成为一名数据科学家吗? “为什么要成为数据科学?”,这是一个高频问题,答案也非常多。 有的说大...

    陆勤_数据人网
  • 想成为数据科学家?你得先读读这篇文章

    大数据文摘
  • 明略数据工业大数据专家葛利鹏:大数据驱动的工业人工智能初探

    数据猿导读 工业在我国经济中占比较重要的地位。近年来,我国经济的快速发展,进入了一个中高速增长的新常态。工业在中国经济中的比重依然在不断增强。同时,工业和我们日...

    数据猿
  • 机器学习(二):有监督学习、无监督学习和半监督学习

    一、基本概念 1 特征(feature) 数据的特征。 *举例:书的内容* 2 标签(label) 数据的标签。 *举例:书属于的类别,例如“计算机”“图形学”...

    海天一树
  • 你为什么应该关注“数据科学50人”?

    喧嚣尘上的每一次技术浪潮,归根结底,都是“人”在创造、在改变、在影响。当你关注数据科学的时候,我们希望为你从那些创造者身上,看到这个时代的微光。

    DT数据侠
  • D-News | 柯洁AlphaGo约战四月 中信部规划称中国将建立网络数据安全管理体系

    大数据文摘

扫码关注云+社区

领取腾讯云代金券