首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据分析师入门该学些啥

作为转行学习数据分析,自然看了不少文章,走了不少弯路,学了不少有用没用的,下面推荐一篇入门该学习的文档手册。这本手册包含了入门需要掌握的技能,包括python、爬虫、数据库、统计分析知识、机器学习知识。必备的工具主要是anaconda(数据科学强烈推荐),MySQL。

主要分为以下几个部分:

Python 基础语法

数据类型:字符串、布尔型、整数、浮点数、列表、元组、字典、集合等; 运算符:Python主要的运算符有数学运算符、逻辑运算符、比较运算符;

表达式:由值、变量、运算符组成;

控制流:Python有三种控制流,if/for/while来控制表达式执行的顺序;

函数、变量作用域(局部和全局)、lambda函数:使得代码变得更简洁和更具有可迁移性;

字符串操作:替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、去空格、分割等;

数据操作:数据索引、切片、添加、插入、移除、排序等方法;

正则表达式:使用正则表达式可以实现模糊匹配、替换和拆分。

SQL基础知识

建立表:SQL语句操作的对象是表格,表格的建立是操作的基础,可以使用CREATE命令进行建立;

插入、更新和删除数据:建立了表格之后需要使INSERT,DELETE,DROP来对表格进行更进一步的插入新值新列、删除部分数据、删除整张表的操作。

数据检索:用SELECT语句来实现检索功能,它是最经常被使用到的SQL语句;

数据排序:ORDER BY语句;

数据过滤:WHERE语句限定了搜索的条件;BETWEEN/IN/NOT操作符限定了查询值的范围;AND/OR操作符表达搜索条件间的逻辑关系;数据汇总和分组可以使用GROUP BY语句。

子查询:可以嵌套在主查询的SELECT,WHERE,FROM,GROUP BY等位置,使用子查询可以写出具有更复杂功能的SQL语句,使得查询更加灵活。

组合查询:使用UNION操作符,连接多个SELECT语句,把多条查询结果当做一条组合查询返回,大大简化了查询的复杂程度。

关系型数据库的设计方便了处理和提高了存储的效率,然而却带来了一个问题,就是跨表的查询。联结是一种机制,用于关联不同的表。

基本概念:主键、外键。

种类:内部联结;自然联结;外部联结;带聚集函数的联结。

LIKE操作符支持的通配符:可以用于匹配搜索值的某一部分,来实现数据的过滤。

python数据分析与可视化

数据分析(NumPy/Pandas)

Python数据可视化,常用的Python可视化工具包有:matplotlib、seaborn等。

机器学习

监督学习:线性回归,逻辑回归,决策树,朴素贝叶斯、最近邻等算法

无监督学习:聚类算法、降维算法等。

scikit-learn是一个开源学习模块,为用户提供了许多机器学习的算法接口,可以使用Python直接调用。

这些都只是一些入门需要掌握的内容,最重要的还是多实践、多练习。通时也要养成数据分析师思考问题的习惯:

问题的重要性(为什么要分析这个问题?)

问题的准确定义(可以以假设检验的方式写出)

如何选择分析所使用的数据集(数据来源是否可靠,内容是否充分?)

问题分析所采用的方法(方法是否适用?)

数据分析预处理(如何生成训练集、测试集)

分析结果所采用的评价指标

要清楚分析所使用的方法以及数据集的局限在哪里

最后就是要学会写数据分析报告,因此会ppt,数据可视化软件也是很重要的。

学习最重要的是持之以恒,不间断的学习加上练习,肯定能取得非常好的效果。今天展示的是入门需要掌握的一些知识,在以后,我会逐渐通过这些知识,完成一些有意思的项目,深入了解学习每一个功能模块。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180419G10LC000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券