前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python教程 | 数据分析系统步骤介绍!

Python教程 | 数据分析系统步骤介绍!

作者头像
龙哥
发布2019-04-25 14:02:45
1.1K0
发布2019-04-25 14:02:45
举报
文章被收录于专栏:Python绿色通道Python绿色通道

推荐阅读:和50万人一起学Python

摘要

在用Python做数据分析的过程中,有一些操作步骤和逻辑框架是很固定的,只需要记住其用法即可。本节内容介绍Pandas模块在数据分析中的常用方法。

内容目录

1、数据的生成与导入

2、数据信息查看

2.1、查看整体数据信息

2.2、查看数据维度、列名称、数据格式

2.3、查看数据特殊值和数值

2.3.1、查看空值

2.3.2、查看唯一值

2.3.3、查看数值

2.3.4、查看前后数据

3、数据的清洗和预处理等步骤

3.1、空值处理

3.2、空格处理

3.3、字符串大小写处理

3.4、更改数据类型和列名称

3.5、重复值处理

3.6、数据替换

3.7、数据合并和排序

3.8、数据分组

4、数据提取和筛选

4.1、按位置提取

4.2、按标签提取

4.3、按条件提取

4.4、数据筛选

5、数据汇总与统计量计算

5.1、groupby用法

5.2、数据透视表用法

5.3、数据采样

5.4、数据求均值 ,方差等

5.5、数据求相关系数

6、数据存储

6.1、存储到Execl

6.2、存储到CSV

1、数据的生成与导入

说明:

  • 利用Pandas里面的read系列可直接读取相应格式的数据文件。
  • 生成数据直接创建一个Dataframe即可
  • 本次数据为泰坦尼克号数据

2、数据信息查看

目的:了解数据的概况,例如整个数据表的大小、所占空间、数据格式、是否有空值和重复项,为后面的清洗和预处理做准备。

限于篇幅,只对其中一种方法进行截图展示。例:查看前五行数据

3、数据的清洗和预处理等步骤

对清洗完的数据进行预处理整理以便后期的统计和分析工作。

例如更改列名:

数据合并:

Pandas具有功能全面的高性能内存中连接操作,与SQL等关系数据库非常相似。

合并方式:

  • inner
  • outer
  • left
  • right

组合方式:

  • left_on + right_on
  • left_on + right_index
  • left_index + right_on
  • left_index + right_index

数据排序:

数据分组

例如:把泰坦尼克号火灾等级分成:‘high’,‘low’

结果:

更多关于预处理请阅读:你会用Python做数据预处理吗?

4、数据提取和筛选

  • 数据提取:使用loc和iloc配合相关函数。
  • 筛选:使用与,或,非三个条件配合大于,小于和等于对数据进行筛选。

5、数据汇总与统计量计算

关于groupby和数据透视表请阅读:这些祝福和干货比那几块钱的红包重要的多!

相关系数结果:

6、数据存储

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python绿色通道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档