标签:python与Excel,pandas
至此,我们已经学习了使用Python pandas来输入/输出(即读取和保存文件)数据,现在,我们转向更深入的部分。
在Excel中,我们可以看到行、列和单元格,可以使用“=”号或在公式中引用这些值。在Python中,数据存储在计算机内存中(即,用户不能直接看到),幸运的是pandas库提供了获取值、行和列的简单方法。
先准备一个数据框架,这样我们就有一些要处理的东西了。我们仍使用以前的示例文件“用户.xlsx”
图1
图2
可以看到,对于这个小表格/数据框架:
df.index
返回索引列表,在我们的例子中,它只是整数0、1、2、3。
df.columns
提供列(标题)名称的列表。
df.shape
显示数据框架的维度,在本例中为4行5列。
图3
使用pandas获取列
有几种方法可以在pandas中获取列。每种方法都有其优点和缺点,因此应根据具体情况使用不同的方法。
点符号
可以键入“df.国家”以获得“国家”列,这是一种快速而简单的获取列的方法。但是,如果列名包含空格,那么这种方法行不通。
图4
方括号表示法
它需要一个数据框架名称和一个列名,如下图所示:df[列名]。方括号内的列名是字符串,因此我们必须在其两侧使用引号。尽管它需要比点符号更多的输入,但这种方法在任何情况下都能工作。因为我们用引号将字符串(列名)括起来,所以这里也允许使用带空格的名称。
图5
获取多列
方括号表示法使获得多列变得容易。语法类似,但我们将字符串列表传递到方括号中。请注意双方括号:
dataframe[[列名1,列名2,列名3,…]]
图6
使用pandas获取行
可以使用.loc[]获取行。请注意此处是方括号,而不是圆括号()。语法如下:
df.loc[行,列]
其中,列是可选的,如果留空,我们可以得到整行。由于Python使用基于0的索引,因此df.loc[0]返回数据框架的第一行。
获取1行
图7
获取多行
我们必须使用索引/切片来获取多行。在pandas中,这类似于如何索引/切片Python列表。
要获取前三行,可以执行以下操作:
图8
使用pandas获取单元格值
要获取单个单元格值,我们需要使用行和列的交集。想想如何在Excel中引用单元格,例如单元格“C10”或单元格区域“C10:E20”。以下两种方法都遵循这种行和列的思想。
方括号表示法
使用方括号表示法,语法如下:df[列名][行索引]。这有时称为链式索引。记住这种表示法的一个更简单的方法是:df[列名]提供一列,然后添加另一个[行索引]将提供该列中的特定项。
假设我们想获取第2行Mary Jane所在的城市。
图9
要获得第2行和第4行,以及其中的用户姓名、性别和年龄列,可以将行和列作为两个列表传递,如下图所示。
图10
记住,df[['用户姓名','年龄','性别']]返回一个只有三列的新数据框架。接着,.loc[[1,3]]返回该数据框架的第1行和第4行。
.loc[]方法
正如前面所述,.loc的语法是df.loc[行,列],需要提醒行(索引)和列的可能值是什么?
图11
试着获取第3行Harry Poter的国家的名字。
图12
要获得第2行和第4行,以及其中的用户姓名、性别和年龄列,可以将行和列作为两个列表传递到参数“row”和“column”位置。
图13
注:本文学习整理自pythoninoffice.com。