前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据处理是万事之基——python对各类数据处理案例分享(献给初学者)

数据处理是万事之基——python对各类数据处理案例分享(献给初学者)

作者头像
机器思维研究院
发布2019-12-19 17:21:17
1.6K0
发布2019-12-19 17:21:17
举报
文章被收录于专栏:AI机器思维AI机器思维

作者Nature

出品AI机器思维

练上一万个小时每个人都会成为专家——重复是学习之母!

Pandas是python中一个强大的数据分析和处理模块工具,通过此模块能快速、灵活的处理数据,为复杂的数据分析提供基础分析功能。对数据库或Excel表,如包含了多列不同数据类型的数据(如数字、时间、文本)以及矩阵型或二维表等这些原始数据都需要首先处理才能应用分析。

一个好的数据科学家同时也是一个好的数据处理科学家,有效的数据是万事之基,业务数据分析中数据需要经历如下几个阶段的工序如:清洗原始数据、转换与特殊处理数据、分析和建模、组织分析的结果并以图表的形式展示出来,根据数据分析写数据分析报告等。

Pandas模块处理两个重要的数据结构是:DataFrame(数据框)和Series(系列),DataFrame(数据框)就是一个二维表,每列代表一个变量,每行为一次观测,行列交叉的单元格就是对应的值,数据框有行和列的索引,能帮助我们快速地按索引访问数据框的某几行或某几列,可以对行或列操作。可以通过NumPy数组创建数据框。

首先安装pandas包:

案例1:创建一个数据框

说明:v_data变量赋值的是后面的数据,通过df=pd.DataFrame(v_data)构造函数生成数据框并赋值给df,构造函数里有很多参数可以应用,改变列的排列显示顺序等,这些高级参数设置可以根据案例去尝试,做到举一反三的学习,更好的领悟构造函数。对上面程序改造构造函数,添加高级参数设置。

改造后的程序执行结果如下:

程序执行后结果如下:

如果查看某列数据,直接通过print()函数中加入变量名和列名就可以。

执行后结果:

案例2:Series(系列),其实就是一个一维数组,属于同类型的进行多次观测后记录的结果值。它服从某种分布,默认情况下系列的索引是自增的非负整数列。

程序执行后结果如下:

如果我们对上面的系列作向量化操作运算,如开平方根

程序执行后结果如下:

以上是对pandas模块详细的讲解,下面根据案例对外部数据文件处理:

需要安装xrld处理excel文件

案例3:读取E:/test/sale.xcel文件

程序如下:

程序执行后结果通过print()函数查看结果输出到窗口:

案例4:重命名上面的数据文件中的列变量名time改为sale_time

程序执行后查看结果列:

希望大家多看帮助,改造案例去学习,亲自动手运行案例,这样才能有更深刻的体会编程的乐趣,通过实际业务应用,用程序解决业务痛点。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI机器思维 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档