专栏首页SeanCheney的专栏《数据科学家访谈录》总结·4

《数据科学家访谈录》总结·4


01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - 10:Clare Corthell, Drew Conway, Kevin Novak, Chris Moody, Erich Owen 11 - 15:Eithon Cadag, George Roumeliotis, Diane Wu, Jace Kohlmeier, Joe Blitzstein 16 - 20:Jonh Foreman, Josh Wills, Bradley Voytek, Luis Sanchez, Michelangelo D’ agostino


  1. Jonh Foreman 《Data Smart》作者 教育背景:麻省理工大学·运筹学博士 职业经历:多家咨询公司,NSA,Booz Allen,MailChimp首席科学家
  • Jonh的职业经历

对Jonh的采访主要是关于他的职业经历。在读博期间,他参与过戴尔电脑的供应量项目,萌生了进入科技界的想法。博士毕业之后,在美国国家安全局实习过,不喜欢政府的工作环境。现在的公司MailChimp位于亚特兰大,最大的优点是可以给公司很高的独立性。

  • 什么数据科学家不应该花时间在Kaggle上?

数据科学家做的主要工作就是建立预测模型,这种说法是不正确的。

在建立一个模型之前,你需要知道你的公司里有什么可用的数据资源,有什么技术对于你来说是有平台资源支持的,有什么技术是适合的,你需要去很好地定义那个问题,并且认真研究其中的各个细节。

在数据科学界有一个观点就是,Kaggle根本不会关注一个问题是不是当务之急必须解决的。

  • 在公司里,数据科学家的角色具体是怎样的呢?

一个人人都知道的数据科学家的职责就是清洗和准备数据。寻找、爬取、准备、清洗,这就是这一部分职责的操作流程。在建模之前的数据整理工作量是非常巨大的。

任何数据科学家应该具备的能力就是与商业人士沟通的能力。

  • “数据科学”这个术语有点荒唐

“数据科学”的组成就是两个含糊不清的词汇,并没有真正代表我大部分时间在做的事情。作为一个术语的数据科学可能会消亡,成为一个过气的“网红”,但技术确实是很重要的,这些技术终将会深深影响商业界的许多工作。

  • 线上世界会开始向线下融合

与李开复不谋而合

  1. Josh Wills 教育背景:杜克大学·理论数学学士,德州大学奥斯汀分校·运筹学博士。 职业经历:Zilliant,Indeed,Google,Cloudera数据科学主任
  • 统计学的学习

大学最后一年学习过统计学入门课程。在奥斯汀为IBM工作时,学习了基本的统计学知识,并有机会加以利用。

(对Josh的采访主要是他就职过的公司的对比,不同公司的工作内容,和数据关系相对较浅。)

  1. Bradley Voytek 教育背景:南加州大学·物理学学士,伯克利分校博士。 职业经历:Uber,UCSD计算神经科学教授
  • 不回避失败

“在很多地方,失败往往会被人鄙视,但是我觉得从某种意义上说,失败也是你成长的过程。”

Bradley的本科GPA很糟糕,但是被伯克利录取。他觉得过去有很多人在关键的时刻给予过他帮助,并且由于对神经科学有更大的兴趣,又回到了学校任职。

  • 关于沟通

我经常想起这个画面。能否顺利地与别人沟通交流,讲出你的点子,是一个很重要的问题。

  1. Luis Sanchez 教育背景:委内瑞拉一所军事大学获得学士学位,LASPAU奖学金的MBA学位 职业经历:ttwick公司的数据科学家与CEO
  • 数据科学是什么?

数据科学是一门从一组数据中提取价值的艺术和科学,无论数据大小都是。

叫作“艺术”,因为没有一种万能的方法或者公式可以帮助你回答所有你想问的数据问题。

称为“科学”,因为你需要了解你所做的事情背后的理论机理,并花费10000个小时去磨砺解决问题的方法,让自己培养出条件反射一般的记忆。

  • 数据科学家的目标应该是什么?

数据科学家的目标是从最有效的资源利用和时间限制中创造出可操作、可使用的智能价值。数据科学家应该能够以有意义的方式将数据连接起来,从而从数据的组合中创建新的知识,从而能够以创造性的方式模拟和解决问题,并快速地完成所有的工作。

  • 学习路径

金融量化,到数据抓取、网络爬虫,人工智能。

  • 研究生最该做什么?

除了Visual Basic语言之外,还应该学习更多的语言。我将为曾经的我订立一个学习Octave、Python以及在1995年出现的Java的计划。

  • 持续学习的方法

我参加了很多会议和聚会,我尽可能多地阅读有关人工智能、金融工程和其他相关话题的最新发现。

  • 数据科学在未来几年会发生什么变化?

我希望最大的进步来自高性能计算和数据存储。还会有更多的“工具”能够被用来进行数据分析。

  1. Michelangelo D’ agostino 教育背景:哈佛大学·物理学士,伯克利大学·天体物理博士 职业经历:《经济学人》作者,奥巴马竞选团队分析师,Braintree首席数据科学家,Civis Analytics
  • 如何接触数据科学的?

读博期间的项目是分析中微子信号模式,使用了大量的神经网络技术。Kaggle刚开始出现的时候,就参与其中。自学了R语言,参加各种Meetup。推荐博客KDNuggets,https://www.kdnuggets.com

  • 上学期间最重要的?

我总是告诉学生,在研究生阶段学到的最有用的技能就是如何自学,以及如何准确定位你还不知道的东西。这是第一件事。第二件事是要坚持不懈,在遇到问题的时候,要绞尽脑汁地前进,直到取得突破。自信心是另一个我想说的东西。最后一件事是,如果有过处理数据的经验,那是极好的。学习如何处理数据的唯一方法是实际使用数据。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 《数据科学家访谈录》总结·3

    01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - ...

    SeanCheney
  • 《数据科学家访谈录》总结·2

    01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - ...

    SeanCheney
  • 《数据科学家访谈录》总结·1

    求职需要你每一次都针对不同的聊天对象修改对自己的介绍和描述。其中的精髓正和做数据科学如出一辙,你需要不断地在展示自己和研究如何展示自己之间反复循环。

    SeanCheney
  • 一文看懂BDTC 2018:探秘大数据新应用(附PPT下载)

    12 月 8 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的 2018 中国大数据...

    AI科技大本营
  • 参考消息:2015大数据发展十大预测公布

    大数据文摘
  • 大数据是屠龙术(暨桑文锋《数据驱动》新书首发)

    用户1682855
  • 凯哥讲数据中台:四大能力构建数据驱动的组织

    麦肯锡全球研究院报告表明,数据驱动的组织吸引客户的能力,保留客户的能力和盈利能力上,分别是一般企业的23倍,6倍和19倍[1]。

    凯哥
  • 大数据行业薪酬居互联网之首;微信支付向商户开放数据 | DT数读

    过去一周,国际、国内的大数据相关公司都有哪些值得关注的新闻?数据行业都有哪些新观点和新鲜事?DT君为你盘点解读。

    DT数据侠
  • 你的公司是否真的需要大数据战略?

    我们认为,企业应该重视数据统治和数据管理。如果数据是一个企业最重要的资产,然后常规的数据统治项目和数据管理最佳实践是其能够实现的多数投资策略。如果只有其中一种投...

    华章科技
  • 数据清理的最全指南

    https://www.toutiao.com/i6670031809427800587/

    加米谷大数据

扫码关注云+社区

领取腾讯云代金券