业界 | 为什么你不应该成为一名数据科学通才

大数据文摘出品

编译:周家乐、狗小白、蒋宝尚

数据科学家似乎个个都是全才,他们知识面很广,即写的了代码,又分析的了业务,没事还能整个数学模型调调参数。

似乎,数据科学家涉及的领域越广,越能突出数据科学这份职业的价值。

但是,情况恰恰相反!

有着丰富的数据科学经验的SharpestMinds联合创始人Jeremie Harris告诉你,千万不要成为一个数据科学通才!

以下是他以第一人称的论述,enjoy

我在公司帮新手规划数据科学职业发展的时候,通常首先建议他们先去考虑一下自己想成为什么样的数据科学家,而不是直接推荐一个新的库或工具,或者一些写简历的技巧给他们。

这个问题之所以如此重要,是因为数据科学涉及太多方面,以至于很难被一个人完全掌握。所以,对公司而言,与其雇一个什么都懂一点却不精通的人,不如雇佣那些专才。

你可以试想一下你是一家计划雇用数据科学家的公司。在你的脑海中几乎存在一个需要寻求帮助才能解决的具体的问题,该问题需要一些相当专业的技术知识和项目经验。例如,一些公司将简单模型应用于大型数据集,一些公司将复杂模型应用于小型数据集,一些公司需要动态地训练他们的模型,还有一些公司根本不使用传统的模型。

解决上面例子中的每一个问题所需要的技能组合完全不同,而让人感到特别奇怪的是,每一个有志于数据科学的人得到的建议往往是一样的:“学习如何使用Python,构建一些分类/回归/聚类的项目。”

其实,出现这一现象的原因是包括我在内的圈内人造成的。因为在闲聊、博客帖子中,我们把过多的东西放到“数据科学”中。

为生产建一个强健的数据通道?这是一个“数据科学问题”。创造一种新型的神经网络?这是一个“数据科学问题”。

这往往导致有志于数据科学的人们失去对特定问题的深入研究,从而成为泛泛之辈。要知道,人才市场上已经满是所谓的通才,他们很难再得到市场的青睐或取得突破。

但是,如果你自己不清楚都有哪类常见问题需要你去深入研究,那你就很难避免流于平庸。

我们把圈内出现的问题归结为以下五类:

数据工程师

职位描述:处理大量数据的公司,并管理数据通道。这意味着,当需要时,你要能确保有效地从数据源收集和检索数据,并进行清理和预处理。

为什么它很重要:如果你只处理过相对小的(<5Gb)保存为.csv或.txt文件的数据集,那么你可能很难理解为什么会有一些人的全职工作是构建和维护数据管道。

这里有几个原因:1、一个50Gb的数据集对计算机的RAM来说太大了,所以你通常需要其他方法将其输入到你的模型中。2、处理这么大规模的数据需要花费大量时间,并且经常需要冗余存储。管理数据的存储也需要专门的技术诀窍。

要求:你将使用的技术包括Apache Spark、Hadoop和/或Hive,以及Kafka。你很可能还需要有一个扎实的SQL基础。

你要处理的问题听起来像:

“我如何构建一个能够每分钟处理10000个请求的数据管道?”

“如何清理数据集而不用将其全部加载到RAM中?”

数据分析员

职位描述:将数据转换成可指导业务发展的商业洞察力。你会是技术团队和商业战略、销售或营销团队的桥梁。数据可视化将成为你日常工作的重要组成部分。

为什么它很重要:纯技术人员通常很难理解为什么数据分析员如此重要,但事实是他们就是很重要。这些人需要将经过训练和测试的模型和大量用户数据转换为让人易于理解的形式,以便根据数据分析结论设计业务策略。数据分析员帮助确保数据科学团队不会浪费时间在不能提供业务价值的问题上面。

要求:你将使用的技术包括Python、SQL、Tableau和Excel。你还需要成为一个好的沟通者。

你要处理的问题听起来像:

“什么驱动了用户的增长?”

“我们如何向管理层解释,最近用户费用的增加会减少客户?”

3. 数据科学家

职位描述:清理和探索数据集,并做出有商业价值的预测。日常工作包括训练和优化模型,并将它们部署到生产中。

为什么它很重要:当你有一大堆数据,以至于人类无法解析,同时这些数据也很珍贵以至于不能忽略它们时,你需要通过一些办法从中提取一些可被接受的见解。这是数据科学家的基本工作:将数据转换成可被理解的结论。

要求:你将使用的技术包括Python、scikit-learn、Pandas、SQL,可能还有Flask、Spark和/或TensorFlow/PyTorch。一些数据科学职位纯粹是技术性的,但是大多数职位还需要你具有商业头脑,这样你就不会老想着去解决没有人需要解决的问题。

你要处理的问题听起来像:

“我们到底有多少种不同类型的用户?”

“我们能建立一个模型来预测哪些产品能卖给哪些用户吗?”

机器学习工程师

职位描述:建立、优化和部署机器学习模型到生产中。通常需要把机器学习模型当作API或组件来处理,把它们嵌入到全栈应用程序或硬件中,但是你也可能会被要求自行设计模型。

要求:使用的技术包括Python、JavaScript、scikit-learn、TensorFlow / PyTorch(和/或企业级深度学习框架)和SQL或MongoDB(通常用作app数据库)。

你要处理的问题听起来像:

“如何将这种Keras模型集成到我们的Javascript应用程序中?”

“如何减少推荐系统的预测时间和预测成本?”

5.机器学习研究员

职位描述:寻找新的方法来解决数据科学和深度学习中的挑战性问题。没有现成的解决方案给你,需要自己去制定。

要求:你将使用的技术包括Python、TensorFlow/PyTorch和SQL。

你要处理的问题听起来像:

“我如何才能提高我们模型的准确性,使之更接近最新水平?”

“自定义优化程序有助于减少训练时间吗?”

这里列出的五种工作描述并不是在所有情况下都是独立的。例如,在初创公司的早期,数据科学家可能还必须是数据工程师和数据分析师。但是,大多数工作都可以被划分为这几类工作中的一种,而且公司规模越大,数据科学工作的划分越贴近这里所列出的类别。

总而言之,要记住的是,为了得到聘用,你最好能培养一个更加专注的技能集:如果你只是想成为一名数据分析员,不要着急去学习TensorFlow;如果你是想成为一名机器学习研究人员,没必要先去学习Pyspark。

相反,你需要考虑你想帮助公司创造什么样的价值,并且让自己善于创造这种价值。相对于任何其它方式,这是得到offer最好的方式。

相关报道:

https://towardsdatascience.com/why-you-shouldnt-be-a-data-science-generalist-f69ea37cdd2c

【今日机器学习概念】

Have a Great Definition

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-11-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

如何充分利用机器学习的书籍和课程

如今,在网上网下,我们有许多机器学习书籍和课程可用来学习,而同时网上又掀起了大学课程和电子书逐渐免费的趋势。太多的优秀资源可以使用也许会让您感觉到要被压倒。而这...

22960
来自专栏华章科技

业余时间学数据分析,如何快速上手

广泛被应用的数据分析:谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网...

15640
来自专栏灯塔大数据

Google大数据案例解析

将系统产生的大数据传输,存储,分类等很多是技术型工作,随着大数据技术的发展,通用的解决方案,越来越成熟,也越来越廉价(几乎每两年存储价格降低一倍)。但是对于大...

36550
来自专栏机器之心

专访 | 腾讯云机器学习平台技术负责人黄明,详解 DI-X 深度学习平台

机器之心原创 作者:高静宜 3 月 28 日,腾讯云宣布推出深度学习平台 DI-X(Data Intelligence X),为机器学习、深度学习用户提供一站式...

61890
来自专栏专知

【前沿】人工智能系统的四大趋势与九大挑战,美国Berkeley14位重量级学者(包含机器学习泰斗Jordan)最新观点

【导读】最近,加州大学伯克利分校大学的大牛们针对目前AI的火爆形势,又总结了一篇《A Berkeley View of Systems Challenges f...

1.2K60
来自专栏华章科技

分布式实时处理系统浪潮——浅析“深度学习”看未来发展

Autodesk资深系统研发工程师,从事平台架构方面的研发工作。曾在思科系统(中国)研发中心云产品研发部工作多年,全程参与了海量数据实时处理、分析系统的构建与实...

8420
来自专栏CSDN技术头条

谷歌工智能开源项目Tensorflow预示着硬件领域的重大变革

谷歌宣布将其最重要的创新项目之一 —— 人工智能引擎 ——作为开源项目发布到网上供大家免费使用,这展示了计算机软件行业正进行着什么样的变革。 最近,互联网巨头们...

217100
来自专栏ATYUN订阅号

高通研究新进展,设备离线语音识别率高达95%

在波士顿的Re-Work深度学习峰会上,高通公司的人工智能研究员Chris Lott介绍了他的团队在新的语音识别程序方面的工作。

18640
来自专栏ATYUN订阅号

亚马逊为开发者带来249美元的学习工具:DeepLens深度学习相机

亚马逊的云计算子公司亚马逊网络服务(AWS)终于为美国开发者推出了DeepLens深度学习相机。

13130
来自专栏SDNLAB

应用驱动网络(ADN)开启用户体验新时代

未来网络的核心挑战是如何解决网络架构制约商业模型创新的问题。 运营商的收益依赖于用户规模,用户增长面临瓶颈。互联网最初架构的思想就是为了流量而建网,并不考虑不...

42090

扫码关注云+社区

领取腾讯云代金券