跨入数据世界和机器学习你需要知道的一切

编译 | sunlei

数据科学被称为”21世纪最性感的工作”。

现如今每天都会产生tb级的数据,所以是时候采取行动了!

许多人试图进入与数据相关的领域;但是,由于分支学科之间有很多交叉和混淆,网络上也有很多可用的资源,有的人可能会迷失方向,究竟从哪里开始呢?许多人最终学习了一套通用的技能,成为了数据科学通才。

这就是我整理这篇文章的原因,希望能帮助你发现并选择适合你的方向。在这篇文章中我还总结了每个领域所需的所有能力,这样有助于你制定下一步行动计划!这里的路线图涵盖了数据和每个人都需要的技能。我们将介绍精准的细节来希望能帮助到你去发现自己还缺乏什么技能。

数据科学

数据科学被称为”处理数据的艺术”。作为一名数据科学家,您不只是使用编程工具来从A点到达B点;但是,你首先要定义A点,然后从这些点开始绘制所有可能的路径,探索输入数据,进行假设,正式的提出假设,使用不同的统计和数学工具测试你的假设,如果需要,设计和应用实验,评估当前的周期,如果需要,开发一些编程工具,或者更多…

数据科学有三个主要组成部分:

  1. 机器学习和计算机科学技能
  2. 数学和统计
  3. 领域相关的知识

数据科学包括不同的技术和工具。在这里,我们将首先在python中列出所需的技能堆栈。

Python方向所需的技能

  • 熟悉Numpy、panda、sklearn和matplotlib
  • 强大的SQL技能,NOSQL技能也是非常必要的。包括设计规范化模式,良好的索引技术,和写作高效的查询
  • 数据清理
  • 良好的数据可视化技能(如tableau或library、matplotlib、seaborn、Bookeh等)
  • 统计分析技能。这包括熟悉不同的统计问题类型。
  • 实验设计和统计测试(参数和非参数测试)
  • 熟悉大数据框架/基础设施(Spark、hive、Hadoop、Mongo等)
  • 机器学习技能(技能水平因业务逻辑导致的差异很大)
  • 对数据科学的整个周期有很较强的理解(尖锐问题、探索性数据分析、推理、形式化统计建模、解释和沟通)
  • 讲故事的技巧(PowerPoint等)

数据科学是一个非常广泛的领域,通常需要基于面临的任务去学习新的知识和技能(如何构建、推荐系统、序列建模等)在本文中我只介绍基本技能集。

数据分析

数据分析基本上是回答在使用数据时与业务相关的问题。这些问题可能是:

  • 描述性:您只是在描述您所拥有的数据样本及其相关统计数据。您对样品之外的数据不感兴趣。
  • 探索性:你正在探索不同的模式,趋势数据、季节性、关系和分布。通常做为探索性数据分析可视化工具。
  • 推论性:你正试图推断一些有关的问题的答案,基于假设检验的样本数据以及不同的静态测试技术。
  • 因果关系:这类问题通常需要运行一个或更多的实验来检验两个或更多的变量之间的因果关系。
  • 机械论的:这一个问题根本联系在两个变量集。通常很难在不受控制的情况下发现它的环境。

数据分析通常被认为是数据科学的一个分支,适用于没有或几乎没有技术背景的专业人士。它通常需要统计学和领域相关经验。

这显示了数据科学和数据分析之间的区别

到目前为止,大多数数据分析师使用SPSS等工具;然而,现在出现了一种新的趋势,即招聘具有R/ python技能的数据分析师,因为他们具备更强大的预测分析和大数据工具的技能。

Python方向所需的技能

  • 熟悉Numpy、panda、sklearn和matplotlib
  • 强大的SQL技能,NOSQL技能。正常情况下这包括编写有效的查询
  • 良好的数据可视化技能(如tableau或library、matplotlib、seaborn、Bookeh等)
  • 统计分析技能
  • 实验设计与统计检验
  • 了解基本的预测分析工具,如回归模型与聚类、队列分析等。
  • 对数据科学的整个周期有很较强的理解(尖锐问题、探索性数据分析、推理、形式化统计建模、解释和沟通)

机器学习工程

机器学习是人工智能的一个领域,我们用它来实现那些通常需要人类的智慧来做特别在视觉和语言过程的自动化。ML是AI的分支,它使用数据在人工智能中其他非数据中心的方来应用它。

机器学习是其中技术含量最高的。它需要一系列的技术技能,比如编写有效的查询,高的学习算法(时间和精度)。

请永远记住,在我们操控电脑时,电脑和我们一样聪明

Python方向所需的技能

  • 熟悉Numpy、panda、sklearn和matplotlib
  • 强大的SQL技能,NOSQL技能也是非常必要的
  • 良好的数据可视化技能(如tableau或library、matplotlib、seaborn等)
  • 熟悉大数据框架/基础设施(Spark、hive、Hadoop、Mongo等)
  • 对基本的ML算法有很强的理解(回归,分类、聚类和降维)
  • 特征工程与超参数微调
  • 对不同的优化算法在什么时候使用有较强的直觉性
  • 构造和评估ML算法
  • 了解不同的神经网络结构和新的病毒架构
  • 强化学习
  • 非常熟悉一个或多个TGE深度学习框架(TensorFlow、Keras、Caffe或Torch等)
  • 网络分析

数据工程

数据工程是关注构建数据管道和基础设施的领域。这项工作对于任何拥有大量数据并计划聘请数据科学家的公司来说都是至关重要的。通常情况下,雇佣数据工程师先于雇佣数据科学家。

Python方向所需的技能

  • 深入了解SQL和NoSQL解决方案
  • 系统架构技能
  • 用于高效数据存储和检索的ETL和其他数据仓库工具
  • 熟悉数据湖、数据仓库等不同的AWS或任何云服务
  • 基于大数据的分析(即基于mongo或Hadoop的框架,如spark、hive、mapreduce)
  • 基本了解数据建模、ML和统计分析
  • 建立高效的数据管道

毕竟,所有这些领域在工业上都是刚刚兴起,还没有很好地建立起来。这就是为什么你需要跟上新的技能,病毒架构,论文等。

未来,我也许会发布另一篇关于最佳推荐的在线课程和学位的文章,指引我们学习每一项技能,并快速浏览这些要点。

End

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2019-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券