前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pandas——高效的数据处理Python库

Pandas——高效的数据处理Python库

作者头像
YingJoy_
发布2018-03-21 10:09:43
1.6K0
发布2018-03-21 10:09:43
举报
文章被收录于专栏:应兆康的专栏

Pandas教程

pandas是高效的数据读取、处理与分析的Python库,下面将学习pandas的基本用法

1. 创造对象

导入pandas , numpy, matplotlib库

代码语言:javascript
复制
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Series是一个值的序列 ,它只有一个列,以及索引,下面的例子中,就是用默认的整数索引

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

DataFrame是有多个数据表,每个列拥有一个label,DataFrame也拥有索引

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

如果参数是一个dict(字典),每个dict的value会被转换成一个Series

可以这样理解,DataFrame是由Series组成

2.查看数据

用head和tail查看顶端和底端的几行 head和tail的默认参数是5

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

实际上DataFrame内部用numpy 格式存储数据,可以单独查看index和columns

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

describe()显示数据概要

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

和numpy一样,可以方便的得到转置

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

对axis按照index排序(axis=1指第二个纬度,即 列)

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

按值排序

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

3.选择行和列

从DataFrame选择一个列,就得到了一个Series

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

和numpy类似,这里可以使用 []

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

4.通过label选择

刚刚的DataFrame可以通过时间戳的下标(dates[0]=Timestamp(‘20170917’))来访问

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

还可以多选

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

冒号和Matlab或Numpy里面的冒号用法是一样的 也可以加上行

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

5.通过整数下标选择

和Matlab完全一样

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

选出3~4行, 0~1列

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

左闭右开

也可以用list选择

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

也可以用slice切片

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

对单个元素

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

布尔值下标

基本用法

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

没有填充的值均为NaN

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

copy()函数:复制DataFrame isin()函数:是否在集合中,并选出

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

Setting

为DataFrame增加新的列,按index对应

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

通过label 下标 numpy 布尔值作下标 设置

《Pandas——高效的数据处理Python库》
《Pandas——高效的数据处理Python库》

缺失值

pandas用np.nana表示缺失值,不加入计算

dropna()丢弃有NaN的行 fillna(value=5)填充缺失值 pd.isnull()获取布尔值的mask,哪些是NaN

统计

平均值 mean() 对另一个纬度做平均值只需加一个参数 mean(1) 这里的1是纬度, 0表示x , 1 表示y, 2表示z 以此类推

Apply函数

对行或列进行操作,可以用lambda表达式

读取csv xls hdf5

代码语言:javascript
复制
pd.read_csv('filename')
pd.read_excel('filename','Sheet1')
pd.read_hdf('filename')
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Pandas教程
    • 1. 创造对象
      • 2.查看数据
        • 3.选择行和列
          • 4.通过label选择
            • 5.通过整数下标选择
              • 布尔值下标
                • Setting
                  • 缺失值
                    • 统计
                      • Apply函数
                        • 读取csv xls hdf5
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档