专栏首页PPV课数据科学社区解析 :跻身数据科学领域的五条职业规划道路

解析 :跻身数据科学领域的五条职业规划道路

翻译:卢苗苗、梁傅淇;校对:吕艳芹;作者:Matthew Mayo

原文链接:http://www.kdnuggets.com/2017/02/5-career-paths-data-science-big-data-explained.html

本文长度为4970字,建议阅读6分钟

本文为你提供如何切实参与到数据科学和/或大数据职业道路的建议。

最近有许多人联系我(大部分都是通过领英)寻求着手数据科学和/或大数据的建议。这些人普遍对切入这个“领域”感兴趣,并且需要些关于如何切入方面的指导。

然而,我怀着极大的尊重来说这个话,这些请求的中心含义体现出请求者对自己所要求的事情其实并不理解。是的,不论在学习什么,每个人都需要从某个地方开始。我不会再一个个去回答这些相似的问题,这篇文章会列出和数据科学和/或大数据职业道路相关的一些基本的概念,并且,很希望提供一点如何切实参与到这个复杂领域的建议。

预备阅读

在我们继续深入之前,读一读这些文章。我是说真的,读,这些,文章。

  • 解析数据科学谜题 (http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html)
  • 再析数据科学谜题 (http://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html)
  • 解析数据科学和大数据 (http://www.kdnuggets.com/2016/11/big-data-data-science-explained.html)
  • 预测性科学 VS 数据科学 (http://www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html)

第一篇文章概览数据科学中一些最主要的概念,而第二篇文章则是今年早些时候对这些概念的更新。第三篇文章更深入地解析了数据科学和大数据之中的概念。最后一篇文章对比了一些其他术语,对“数据科学”这个术语的复杂性和微妙性进行了简短的探讨。

我将众多的职业可能性拆分成五条能够轻松掌控的道路。虽然可能有很多人强烈反对这种角色划分并且因此感到恐慌,但它确实对技能和职业责任进行了高度的分类。因此,我相信接下来的内容能有效地帮助新来者在这个专业领域中所存在的令人混淆和迷惑的无数机会之中确认方向。

分析性职业的粗略分析(点击图片放大)

数据管理专员

这本质上是一个IT职业,类似于数据库管理员。数据管理专员被认为和管理数据以及支持数据管理的设施有关。这个职位和数据分析只有很少关联,也类似Python和R语言的使用也不是很必要。可能会用到SQL语言,以及和Hadoop相关的查询语言,比如Hive和Pig。

关键技术以及需要关注的技能:

  • Apache Hadoop和它的生态系统
  • Apache Spark和它的生态系统
  • SQL以及关系数据库
  • NoSQL数据库

延伸阅读:

  • 解析大数据关键术语 (http://www.kdnuggets.com/2016/08/big-data-key-terms-explained.html)
  • 解析数据库关键术 (http://www.kdnuggets.com/2016/07/database-key-terms-explained.html)
  • 解析Hadoop关键术语 (http://www.kdnuggets.com/2016/05/hadoop-key-terms-explained.html)
  • 解析Apache Spark关键术语 (http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html)
  • 解析云计算关键术语 (http://www.kdnuggets.com/2016/06/cloud-computing-key-terms-explained.html)
  • 七步理解NoSQL数据库(http://www.kdnuggets.com/2016/07/seven-steps-understanding-nosql-databases.html)
  • 七步掌握数据科学所需的SQL (http://www.kdnuggets.com/2016/06/seven-steps-mastering-sql-data-science.html)

数据工程师

这是一条非分析大数据职业道路。记得在刚刚的职业道路之中提到的数据设施吗?是的,它们需要被设计和执行,数据工程师就承担了这部分工作。如果说数据管理专员是汽车修理师,那么数据工程师就是汽车工程师。不过不要搞错了,这两个角色都对你的汽车的行驶和持续工作至关重要,对你从A点驾驶到B点同样重要。

说句实话,数据工程师和数据管理专员所需要的技术和技能是相似的,然而,他们各自在不同的层次理解和使用同样的概念。我不会重复之前一种职业中所提到的那些信息(所有这些信息对数据工程师都很重要),但我会专门给数据工程师补充延伸阅读的清单。

延伸阅读:

  • 顶级NoSQL数据库引擎 (http://www.kdnuggets.com/2016/06/top-nosql-database-engines.html)
  • 顶级大数据处理框架 (http://www.kdnuggets.com/2016/03/top-big-data-processing-frameworks.html)
  • 顶级Spark系统环境项 (http://www.kdnuggets.com/2016/03/top-spark-ecosystem-projects.html)
  • Hadoop和大数据:对于前六大问题的回答 (http://www.kdnuggets.com/2016/01/hadoop-and-big-data-questions.html)
  • 为什么数据科学家和数据工程师需要理解云中的虚拟化 (http://www.kdnuggets.com/2017/01/data-scientist-engineer-understand-virtualization-cloud.html)

商业分析师

在本文里,商业分析师指的是与数据分析和数据呈现紧密相关的角色。包括报告,仪表板和任何被称为“商业智能”的东西。 这种角色通常要求与关系数据库和非关系数据库以及大数据框架的交互(或查询)。

虽然前两种角色与设计基础设施来管理数据以及实际管理数据有关,但商业分析师主要关注从那些或多或少存在的数据中提取信息。 这与以下两个角色(机器学习研究者/从业者和以数据为导向的专业人员)形成对比,两者都侧重于从数据或数据以外已知的一些表面信息中获得洞察力。 因此,商业分析师需要在所呈现的这些角色中具有独特的技能。

关键技术以及需要关注的技能:

  • SQL和关系型数据库
  • NoSQL数据库
  • 经常会用到商业报告和仪表盘封装技术
  • 报告从本质来讲是没有固定模式的,快速掌握工具的使用是关键
  • 数据仓库

延伸阅读:

  • 2016年人工智能的10大趋势 (http://www.kdnuggets.com/2015/12/10-business-intelligence-trends-2016.html)
  • 嵌入式分析:人工智能的未来 (http://www.kdnuggets.com/2016/09/embedded-analytics-future-business-intelligence.html)
  • 自建还是购买–分析表盘(可视化分析) (http://www.kdnuggets.com/2016/07/build-buy-analytics-dashboards.html)

机器学习研究员/从业者

机器学习研究人员和从业者指的是那些制作和使用预测和相关工具进行数据利用的人。 机器学习算法允许以较高的速度应用统计分析,并且那些操作这些算法的人不满足于让数据以其当前形式呈现出来。 数据询问是机器学习爱好者的工作方式,但是具有足够的统计理解才能知道何时推进的足够远,以及什么时候提供的答案不可信。

统计和编程是机器学习研究者和实践者最大的财富。

关键技术以及需要关注的技能:

  • 统计学!
  • 代数与演算(从业者的中级水平,研究员的高级水平)
  • 编程技能:Python,C ++或其他一些通用语言
  • 学习理论(从业者的中级,研究员的高级水平)
  • 理解机器学习算法的内部工作原理(算法越多越好,理解越深越好!)

延伸阅读:

  • 机器学习与统计学 (http://www.kdnuggets.com/2016/11/machine-learning-vs-statistics.html)
  • 解析机器学习关键术语(http://www.kdnuggets.com/2016/05/machine-learning-key-terms-explained.html)
  • 用Python7步掌握机器学习 (http://www.kdnuggets.com/2015/11/seven-steps-machine-learning-python.html)
  • 进入机器学习生涯之前必读的5本书 (http://www.kdnuggets.com/2016/10/5-free-ebooks-machine-learning-career.html)
  • 机器学习算法:简短技术概述 (https://www.linkedin.com/pulse/machine-learning-algorithms-concise-technical-overview-matthew-mayo)
  • 机器学习工程师需要知道的10中算法 (http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html)
  • 算法教程综述 (http://www.kdnuggets.com/2016/09/great-algorithm-tutorial-roundup.html)
  • 10种数据挖掘算法 (http://www.kdnuggets.com/2015/05/top-10-data-mining-algorithms-explained.html)
  • 数据科学的15堂数学慕课 (http://www.kdnuggets.com/2015/09/15-math-mooc-data-science.html)

数据导向专业人员

对于可以被称为“真正的”数据科学家,这是我可以想出的最好的描述。你知道,独角兽。除了,没有独角兽,说不同的话的人都是在撒谎。

数据管理专业人员和数据工程师关注数据的基础设施。商业分析人员关注从数据中提取事实。机器学习研究者和从业者关注推进和使用相关工具,以利用数据来进行预测和相关分析。这两种角色都是基于算法(开发或利用或两者兼具)。数据导向的专业人员主要关注数据本身以及它可以告诉的事实,并不涉及执行任务时所需要的技术或工具。

面向数据的专业人员可能使用上面任何角色中列出的任何技术,这取决于他们的具体职责。这是与“数据科学”有关的最大的问题之一;该术语并没有什么具体的实际意义,但在整体上又包括了一切。这个角色是就像是数据世界的万金油:(可能)知道如何让一个Hadoop生态系统建立和运行;如何对存储在其中的数据执行查询;如何抽取数据,并且载入到非关系型数据库;如何获取非关系型数据并将其提取到平面文件( flat file);如何在R或Python语言中辨别这个数据;如何在进行初步探索性描述分析后设计特征;如何选择适当的机器学习算法来对数据进行预测分析;如何统计分析所述预测任务的结果;如何将结果可视化,以方便非技术人员使用;如何用刚刚描述的数据处理流水线的最终结果告诉管理人员一个令人信服的事实。

这只是数据科学家可能拥有的一些技能。然而,无论如何,这个角色的重点是数据,以及从数据中可以得到什么。同时,在这一个角色中,专业知识占很大的分量,这显然不是这里可以教授的。

关键技术以及需要关注的技能:

  • 统计学
  • 编程语言:Python, R, SQL
  • 数据可视化
  • 沟通能力

延伸阅读:

  • R语言学习路线:7步教你从菜鸟到专家 (http://www.kdnuggets.com/2016/03/datacamp-r-learning-path-7-steps.html)
  • 数据科学入门:讲给初学者的基本概念 (https://www.linkedin.com/pulse/data-science-primer-basic-concepts-beginners-matthew-mayo)
  • 数据科学统计101 (http://www.kdnuggets.com/2016/07/data-science-statistics-101.html)
  • 要在数据科学中做到卓越需要什么样的统计话题? (http://www.kdnuggets.com/2016/08/statistics-topics-needed-excelling-data-science.html)
  • 数据科学家使用的顶尖算法和方法 (http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html)

作为一篇介绍性文章,我有意地忽略了物联网。原因有以下两个:第一,我不想为试图吸取所有这些新信息的人增加困惑;第二,物联网只是一个特殊的数据情况。可能进行一些改进,这些角色都可以适用于物联网数据。但本质来讲还是一样的。

我希望这个介绍能够对那些想要从事“数据科学”或“大数据”行业但不知从哪里或者怎样开始的人们有所帮助。 请记住,对于文章中所提到的任何角色。这里的介绍都不能包罗万象。 但是,对于对数据专业了解不多的人来讲,这是一个很好的起点。

如果你对这个话题的不同看法感兴趣,可以读一读Zachary Lipton的Will the Real Data Scientists Please Stand Up(http://www.kdnuggets.com/2015/05/data-science-machine-learning-scientist-definition-jargon.html)?

END

作者介绍:

卢苗苗:北京语言大学英语专业在读。一个带有理科思维的文科生。 爱思考善分析,脑洞大想法多,喜欢在复杂事物中发现潜在联系。既喜欢仰望星空,也喜欢脚踏实地。作为数据派的活跃分子,希望能同各位大们好好学习。

梁傅淇:软件工程本科在读,主修大数据分析,喜好搜索、收集各类信息。希望能在THU数据派平台认识更多对数据分析感兴趣的朋友,一起研究如何从数据挖掘出有用的模型和信息。

本文转自:数据派THU 公众号

本文分享自微信公众号 - PPV课数据科学社区(ppvke123),作者:数据派THU

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 打包带走!史上最全的大数据分析和制作工具

    工欲善其事,必先利其器。 作为在大数据领域摸爬滚打叱咤风云的伙计们,也应当有一些实用工具来辅助工作日常。下面是小编精心整理的一些经检测非常实用的工具及网站,呈给...

    小莹莹
  • 【学习】天龙八部:8步从Python白板到专家

    如果你想做一个数据科学家,或者作为一个数据科学家你想扩展自己的工具和知识库,那么,你来对地方了。 这篇文章的目的,是给刚开始使用Python进行数据分析的人,指...

    小莹莹
  • 【学习】Python大数据学习路线图

    大家好,附图,为python大数据学习的一个提纲,相关的书本,会慢慢补充进来。 碍于版权问题,有些书本,请大家到网上去购买正版。 ? 1、Python学...

    小莹莹
  • 跻身数据科学领域的五条职业规划道路

    大数据文摘
  • Gis链接

    资料 http://www.rytto.com/bbs/printpage.asp?BoardID=16&ID=14    西安80和北京54的投影文件 论...

    用户1075292
  • CentOS7搭建FastDFS V5.11分布式文件系统-第一篇

    程序员同行者
  • FastDFS V5.12分布式文件系统介绍

    最近要用到fastDFS,所以自己研究了一下,在搭建FastDFS的过程中遇到过很多的问题,为了能帮忙到以后搭建FastDFS的同学,少走弯路,与大家分享一...

    似水的流年
  • FastDFS V5.12分布式文件系统介绍

    最近要用到fastDFS,所以自己研究了一下,在搭建FastDFS的过程中遇到过很多的问题,为了能帮忙到以后搭建FastDFS的同学,少走弯路,与大家分享一下。...

    似水的流年
  • 常用插件备份

    阿炬
  • Head First PHP &MySQL学习笔记

      最近一段时间在学习PHP,买了《Head First PHP&MySQL》中文版这本书,之前买过《Head First设计模式》,感觉这系列的书籍总体来说很...

    ccf19881030

扫码关注云+社区

领取腾讯云代金券