Python数据分析入门日记Day7:数据分析库Pandas:索引

Python数据分析入门日记Day7

——数据分析库Pandas:索引(index)

通过昨天的学习,发现无论是在Series,还是在Dataframe中的数据,Python中输出时第一列系统都会加入一列由数字表示的索引,以昨天文末读取的数据集为例:

添加索引有两大好处:其一是通过索引或索引标签来获取目标数据,其二就是在对多个序列进行运算时实现自动化对齐。

1、通过索引提取数据

(1)定义一个新的序列s1。

如果不为s1添加指定的索引,系统为其添加0~5、间隔为1的数字索引,因此,通过.index函数查看对应的索引值,发现索引值从0开始,到6结束(由于Python“算头不算尾”),步长为1。

(2)添加索引标签

利用.index函数可以为序列自定义索引值,即修改索引标签,具体操作如下:

发现s1的索引标签发生了改变,变为“a,b,c,d,e,f”。

(3)利用索引提取数据

提取索引值为“4”所对应的元素:

提取索引值为“1,2,5”所对应的元素:

提取索引标签为“a、c、f”的元素:

提取前4个元素:

从序列中间提取某些间隔的元素,比如,从索引标签“b”提取到“e”所对应的元素:

可以看到,当使用索引标签提取元素时,首尾值都被返回了,但之前用索引值提取时,末尾值只能返回到前一位的元素。和之前的对比一下:

这就是序列不同于之前的所说的数组的一方面,所以可以为序列设置索引标签。

2、自动化对齐

如果要对两个序列进行一些运算,如加、减、乘、除等等,此时,索引就会体现它的功能:自动化对齐。

(1)定义两个新的序列s2和s3:

注意,s2和s3中的元素和索引标签都不相同。

(2)将两个序列相加,查看结果:

发现在序列s2中没有出现的索引标签“g”和序列3中没有出现的索引标签“a”在两个序列相加后返回值为“NaN”,说明两个序列进行运算时不仅仅是简单的数字相加减而已,索引标签可以起到自动对齐的作用,相同索引标签下的元素才能够完成运算。

可见Pandas中的索引(index)功能是十分强大的,掌握了索引的本领,将为日后的数据分析工作带来极大的便利。在每日的学习中,发现了序列和数组之间的不同之处,同时也对数据类型有了更清晰的辨识。日记Day7就到这里啦,如果有什么好的意见或建议,记得给我留言哦!非常感谢大家的支持,每天早晨看到用户数的增长,我都由衷开心,期待大家的持续关注!

Ovaltine

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190123G05AM400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券