专栏首页Python数据科学跨入数据世界和机器学习你需要知道的一切

跨入数据世界和机器学习你需要知道的一切

数据科学被称为”21世纪最性感的工作”。

现如今每天都会产生tb级的数据,所以是时候采取行动了!

许多人试图进入与数据相关的领域;但是,由于分支学科之间有很多交叉和混淆,网络上也有很多可用的资源,有的人可能会迷失方向,究竟从哪里开始呢?许多人最终学习了一套通用的技能,成为了数据科学通才。

这就是我整理这篇文章的原因,希望能帮助你发现并选择适合你的方向。在这篇文章中我还总结了每个领域所需的所有能力,这样有助于你制定下一步行动计划!这里的路线图涵盖了数据和每个人都需要的技能。我们将介绍精准的细节来希望能帮助到你去发现自己还缺乏什么技能。

数据科学

数据科学被称为”处理数据的艺术”。作为一名数据科学家,您不只是使用编程工具来从A点到达B点;但是,你首先要定义A点,然后从这些点开始绘制所有可能的路径,探索输入数据,进行假设,正式的提出假设,使用不同的统计和数学工具测试你的假设,如果需要,设计和应用实验,评估当前的周期,如果需要,开发一些编程工具,或者更多…

数据科学有三个主要组成部分:

  1. 机器学习和计算机科学技能
  2. 数学和统计
  3. 领域相关的知识

数据科学包括不同的技术和工具。在这里,我们将首先在python中列出所需的技能堆栈。

Python方向所需的技能

  • 熟悉Numpy、panda、sklearn和matplotlib
  • 强大的SQL技能,NOSQL技能也是非常必要的。包括设计规范化模式,良好的索引技术,和写作高效的查询
  • 数据清理
  • 良好的数据可视化技能(如tableau或library、matplotlib、seaborn、Bookeh等)
  • 统计分析技能。这包括熟悉不同的统计问题类型。
  • 实验设计和统计测试(参数和非参数测试)
  • 熟悉大数据框架/基础设施(Spark、hive、Hadoop、Mongo等)
  • 机器学习技能(技能水平因业务逻辑导致的差异很大)
  • 对数据科学的整个周期有很较强的理解(尖锐问题、探索性数据分析、推理、形式化统计建模、解释和沟通)
  • 讲故事的技巧(PowerPoint等)

数据科学是一个非常广泛的领域,通常需要基于面临的任务去学习新的知识和技能(如何构建、推荐系统、序列建模等)在本文中我只介绍基本技能集。

数据分析

数据分析基本上是回答在使用数据时与业务相关的问题。这些问题可能是:

  • 描述性:您只是在描述您所拥有的数据样本及其相关统计数据。您对样品之外的数据不感兴趣。
  • 探索性:你正在探索不同的模式,趋势数据、季节性、关系和分布。通常做为探索性数据分析可视化工具。
  • 推论性:你正试图推断一些有关的问题的答案,基于假设检验的样本数据以及不同的静态测试技术。
  • 因果关系:这类问题通常需要运行一个或更多的实验来检验两个或更多的变量之间的因果关系。
  • 机械论的:这一个问题根本联系在两个变量集。通常很难在不受控制的情况下发现它的环境。

数据分析通常被认为是数据科学的一个分支,适用于没有或几乎没有技术背景的专业人士。它通常需要统计学和领域相关经验。

这显示了数据科学和数据分析之间的区别

到目前为止,大多数数据分析师使用SPSS等工具;然而,现在出现了一种新的趋势,即招聘具有R/ python技能的数据分析师,因为他们具备更强大的预测分析和大数据工具的技能。

Python方向所需的技能

  • 熟悉Numpy、panda、sklearn和matplotlib
  • 强大的SQL技能,NOSQL技能。正常情况下这包括编写有效的查询
  • 良好的数据可视化技能(如tableau或library、matplotlib、seaborn、Bookeh等)
  • 统计分析技能
  • 实验设计与统计检验
  • 了解基本的预测分析工具,如回归模型与聚类、队列分析等。
  • 对数据科学的整个周期有很较强的理解(尖锐问题、探索性数据分析、推理、形式化统计建模、解释和沟通)

机器学习工程

机器学习是人工智能的一个领域,我们用它来实现那些通常需要人类的智慧来做特别在视觉和语言过程的自动化。ML是AI的分支,它使用数据在人工智能中其他非数据中心的方来应用它。

机器学习是其中技术含量最高的。它需要一系列的技术技能,比如编写有效的查询,高的学习算法(时间和精度)。

请永远记住,在我们操控电脑时,电脑和我们一样聪明

Python方向所需的技能

  • 熟悉Numpy、panda、sklearn和matplotlib
  • 强大的SQL技能,NOSQL技能也是非常必要的
  • 良好的数据可视化技能(如tableau或library、matplotlib、seaborn等)
  • 熟悉大数据框架/基础设施(Spark、hive、Hadoop、Mongo等)
  • 对基本的ML算法有很强的理解(回归,分类、聚类和降维)
  • 特征工程与超参数微调
  • 对不同的优化算法在什么时候使用有较强的直觉性
  • 构造和评估ML算法
  • 了解不同的神经网络结构和新的病毒架构
  • 强化学习
  • 非常熟悉一个或多个TGE深度学习框架(TensorFlow、Keras、Caffe或Torch等)
  • 网络分析

数据工程

数据工程是关注构建数据管道和基础设施的领域。这项工作对于任何拥有大量数据并计划聘请数据科学家的公司来说都是至关重要的。通常情况下,雇佣数据工程师先于雇佣数据科学家。

Python方向所需的技能

  • 深入了解SQL和NoSQL解决方案
  • 系统架构技能
  • 用于高效数据存储和检索的ETL和其他数据仓库工具
  • 熟悉数据湖、数据仓库等不同的AWS或任何云服务
  • 基于大数据的分析(即基于mongo或Hadoop的框架,如spark、hive、mapreduce)
  • 基本了解数据建模、ML和统计分析
  • 建立高效的数据管道

本文分享自微信公众号 - Python数据科学(PyDataScience)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 推荐收藏 | 100个数据分析常用指标和术语

    有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把...

    用户2769421
  • 65 页 PPT,看看人家埃森哲是如何系统化做好数据分析的(附下载链接)

    众所周知,大数据不再只是简简单单的数据大这一事实了,而最重要的应是对大数据进行分析。只有通过分析,我们才能获取很多智能的、深入的、有价值的信息。

    用户2769421
  • 进阶指南 | 如何从数据分析师转型为数据科学家?

    如何从数据分析师华丽转型,成为一名数据科学家?好比“把大象装进冰箱”,成为“数据科学家”仅需简单三步:

    用户2769421
  • 快速成为数据分析师的六招技能

    近几年美国公布的相关数据分析中,薪酬最高、最吃香的行业中便有IT业。IT产业日益崛起,技术也被越来越多的人掌握,而往往最被看重的技能是:数据分析、风险管理、机器...

    小莹莹
  • 谁说文科生不能做数据分析?如何速成数据分析师

    “数据分析”是一个含义颇为宽泛的概念,并且,在这个数据化的时代,这个概念几乎是无处不在的。为了保证内容的有效性,在这里仅提供我了解的一些方面。 我接触的数...

    机器学习AI算法工程
  • 【陆勤践行】数据科学 (Data Science)——成就你的未来!

    何谓数据科学?在wikipedia中你还找不到Data Science的词条,但它将成就你的未来。 谷歌首席经济学家Hal Varian在2009...

    陆勤_数据人网
  • php还有未来没?如何通过招聘简章找准自身定位?

    最近很多人觉得python火的不得了,是不是php不行了,有点杞人忧天了。很多人觉得看不懂相关招聘里面的内容,笔者根据入行的一些经验简单的分析下如何看懂一份ph...

    程序员互动联盟
  • 基于以太坊的去中心化智能锁

    共享经济(Sharing Economy)是一种新生业务,利用互联网将顾客和服务提供商匹配起来,并在现实世界中进行交易,比如公寓短租和汽车搭乘服务。

    lambeta
  • Selenium win7+selenium2.0+python+JetBrains PyCharm环境搭建

    担心最新版的支持不太好,这里我下载的是python 2.7(selenium之前不支持python3.x)

    授客
  • 备库CPU使用异常优化(r6笔记第73天)

    一般在一些容灾环境中,尤其是在11g的ADG非常普及的场景下,备库被赋予了更多的责任,很多时候在容忍一些延迟的情况下,有些应用的大量数据查询任务直接放到了备库,...

    jeanron100

扫码关注云+社区

领取腾讯云代金券