前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pandas入门

Pandas入门

作者头像
潇洒坤
发布2018-09-10 10:02:13
2.2K0
发布2018-09-10 10:02:13
举报
文章被收录于专栏:简书专栏

标题中的英文首字母大写比较规范,但在python实际使用中均为小写。

2018年8月2日笔记

建议读者安装anaconda,这个集成开发环境自带了很多包。

作者推荐到2018年8月2日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex

下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。

1.导入库

使用 pandas,首先就得熟悉它的两个主要数据结构: Series和 Dataframe。

代码语言:javascript
复制
from pandas import Series,DataFrame
import pandas as pd

2.创建Series取索引

Series对象有loc和iloc成员变量,如下图所示:

loc的数据类型为pandas.core.indexing,_LocIndexer

iloc的数据类型为pandas.core.indexing,_iLocIndexer

用loc进行索引时,中括号 中的值必须是索引的真实值;

用iloc进行索引时,中括号 中的值必须是整数,与列表list索引取值类似,例如obj.iloc2就是取第3行的值。

image.png

3.Pandas基本数据类型-DataFrame

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型 。

Dataframe既有行索引也有列索引,它可以被看做由 Series组成的字典(共用同一个索引)。

跟其他类似的数据结构相比(如R的dataframe), Data frame中面向行和面向列的操作基本上是平衡的。

其实, Dataframe中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。

3.1 可以用于构造DataFrame的数据

类型

说明

二维ndarray

数据矩阵,还可以传入行和列

由列表或元组成的字典

每个序列会变成DataFrame中的一列,所有序列的长度必须相同

Numpy的结构化/记录数组

类似于"由列表组成的字典"

由Series组成的字典

每个Series会形成1列

由字典组成的字典

各内层字典会成为1列

字典或者Series的列表

各项会成为DataFrame的1行,字典键的并集成为列

简单例子如下:

代码语言:javascript
复制
from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
       'year':[2000, 2000, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data)
df

上面一段代码的运行结果如下:

image.png

自定义列的顺序,代码如下:

代码语言:javascript
复制
from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
       'year':[2000, 2000, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data,columns=['year','state','pop'])
df

image.png

3.2 读取DataFrame中的数据

有两种方式读取数据:

  1. 通过类似字典键索引的方式:

image.png

2.通过属性的方式:

image.png

3.3 DataFrame增加列

给“财务”列赋值一个标量

image.png

给“财务”列赋值一组值

image.png

用旧列产生新列

image.png

3.4 DataFrame删除列

删除"地区_上海"列:del df['地区_上海']

3.5 DataFrame转置

image.png

3.6 DataFrame取值

image.png

4.Pandas快速进阶

4.1 DataFrame创建

创建行和列都为自定义值的DataFrame

代码语言:javascript
复制
from pandas import DataFrame
import numpy as np
kwargs = dict(
    index = ['上海','北京','广州','天津'],
    columns = ['one', 'two', 'three', 'four']
)
df = DataFrame(np.arange(16).reshape(4,4), **kwargs)
df

image.png

4.2 DataFrame删除多行

image.png

4.3 DataFrame删除多列

image.png

4.4 DataFrame选出多行

选出第2、 3行,即选出索引为1、2的行,代码如下:

注意,df.iloc 不是方法,是类似于列表list的可迭代对象,所以后面必须接中括号

image.png

4.5 DataFrame选出多列

选出第2、 3列,即选出索引为1、 2的列,代码如下:

image.png

在不知道列名的情况下实现:

image.png

练习

Step 1. 导入相应的模块

代码语言:javascript
复制
import pandas as pd
import numpy 
from pandas import Series,DataFrame
import matplotlib.pyplot as plt

Step 2. 给定的原始数据集

代码语言:javascript
复制
# Create an example dataframe about a fictional army
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
            'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
            'deaths': [523, 52, 25, 616, 43, 234, 523, 62, 62, 73, 37, 35],
            'battles': [5, 42, 2, 2, 4, 7, 8, 3, 4, 7, 8, 9],
            'size': [1045, 957, 1099, 1400, 1592, 1006, 987, 849, 973, 1005, 1099, 1523],
            'veterans': [1, 5, 62, 26, 73, 37, 949, 48, 48, 435, 63, 345],
            'readiness': [1, 2, 3, 3, 2, 1, 2, 3, 2, 1, 2, 3],
            'armored': [1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1],
            'deserters': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
            'origin': ['Arizona', 'California', 'Texas', 'Florida', 'Maine', 'Iowa', 'Alaska', 'Washington', 'Oregon', 'Wyoming', 'Louisana', 'Georgia']}

Step 3. 根据原始数据集创建一个DataFrame,并赋值给变量army

代码语言:javascript
复制
army = DataFrame(raw_data,columns=raw_data.keys())

Step 4. 设置给定数据中的origin字段为DataFrame的列名,即columns的值,结果如下所示

代码语言:javascript
复制
army.index = army.origin
del army['origin']
army

image.png

Step 5. 打印列名为veterans的所有值,效果如下:

代码语言:javascript
复制
army['veterans']

image.png

Step 6. 打印列名为 'veterans' 和 'deaths' 的所有数据

代码语言:javascript
复制
army[['veterans','deaths']]

image.png

Step 7. 打印出所有的列索引的值

代码语言:javascript
复制
army.columns

image.png

Step 8. 筛选出列 regiments 的值不为"Dragoons"的所有数据,如下所示

方法一:

代码语言:javascript
复制
army.iloc[army['regiment'].values != 'Dragoons']

方法二:

代码语言:javascript
复制
army[army['regiment'] != 'Dragoons']

方法二又等同于army.iloc[army['regiment'] != 'Dragoons']

image.png

附加题:筛选出如下所示的数据, 即第3到7行,第3到6列的所有数据

代码语言:javascript
复制
army.iloc[range(3,8)][army.columns[3:7]]

image.png

想学习更多关于Pandas的知识,请查看作者的《Pandas入门2》

链接:https://cloud.tencent.com/developer/article/1331852

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.08.02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.导入库
  • 2.创建Series取索引
  • 3.Pandas基本数据类型-DataFrame
    • 3.1 可以用于构造DataFrame的数据
      • 3.2 读取DataFrame中的数据
        • 3.3 DataFrame增加列
          • 3.4 DataFrame删除列
            • 3.5 DataFrame转置
              • 3.6 DataFrame取值
              • 4.Pandas快速进阶
                • 4.1 DataFrame创建
                  • 4.2 DataFrame删除多行
                    • 4.3 DataFrame删除多列
                      • 4.4 DataFrame选出多行
                        • 4.5 DataFrame选出多列
                        • 练习
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档