首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 2.2 中文官方教程和指南(一)

如何读取和写入表格数据? 如何选择 DataFrame 的子集? 如何pandas 创建图表?...每个DataFrame都是一个Series。当选择单个时,返回的对象是一个 pandas Series。...对于逗号前后的部分,可以使用单个标签、标签列表、标签切片、条件表达式或冒号。使用冒号指定你想选择所有行或。 我对第 10 到 25 行和第 3 到 5 感兴趣。...如何DataFrame中选择特定? 我对泰坦尼克号乘客的年龄感兴趣。...对于逗号前后的部分,您可以使用单个标签、标签列表、标签切片、条件表达式或冒号。使用冒号指定您要选择所有行或。 我对第 10 到 25 行和第 3 到 5 感兴趣。

31110
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas图鉴(三):DataFrames

df.shape返回行和的数量。 df.info()总结了所有相关信息 还可以一个或几个设置为索引。...还有两个创建DataFrame的选项(不太有用): 从一个dict的列表(每个dict代表一个行,它的键是列名,它的值是相应的单元格值)。...垂直stacking 这可能是两个或多个DataFrame合并为一个的最简单的方法:你第一个DataFrame中提取行,并将第二个DataFrame的行附加到底部。...1:1的关系joins 这时,关于同一组对象的信息被存储在几个不同的DataFrame,而你想把它合并到一个DataFrame。 如果你想合并的不在索引,可以使用merge。...它首先丢弃在索引的内容;然后它进行连接;最后,它将结果0到n-1重新编号。

35720

手把手 | 如何用Python做自动化特征工程

转换作用于单个表(Python角度来看,表只是一个Pandas 数据框),它通过一个或多个现有的创建新特征。 例如,如果我们有如下客户表。...此过程包括通过客户信息对贷款表进行分组,计算聚合,然后结果数据合并到客户数据。以下是我们如何使用Pandas库在Python执行此操作。...数据框添加到实体集后,我们检查它们的任何一个: 使用我们指定的修改模型能够正确推断类型。接下来,我们需要指定实体集中的表是如何相关的。...转换:在单个表上对一或多执行的操作。一个例子是在一个表取两个之间的差异或取一的绝对值。 在featuretools中使用这些基元本身或堆叠多个基元,来创建新功能。...聚合就是深度特征合成依次特征基元堆叠 ,利用了跨表之间的一对多关系,而转换是应用于单个的一个或多个的函数,多个表构建新特征。

4.3K10

多表格文件单元格平均值计算实例解析

每个文件的数据结构如下:任务目标我们的目标是计算所有文件特定单元格数据的平均值。具体而言,我们关注Category_A的数据,并计算每个Category_A下所有文件相同单元格的平均值。...获取文件路径列表: 使用列表推导式获取匹配条件的文件路径列表创建空数据框: 使用pandas创建一个空数据框,用于存储所有文件的数据。...循环处理每个文件: 遍历文件路径列表,读取每个CSV文件,并提取关注的(例如Category_A)。数据加入总数据框: 使用pd.concat()每个文件的数据合并到总数据框。...创建一个空的DataFrame:combined_data = pd.DataFrame()用于存储所有CSV文件的数据的DataFrame。...总体来说,这段代码的目的是指定文件夹读取符合特定模式的CSV文件,过滤掉值为0的行,计算每天的平均值,并将结果保存为一个新的CSV文件。

16100

【Python环境】Python的结构化数据分析利器-Pandas简介

列表的字典构建DataFrame,其中嵌套的每个列表(List)代表的是一个,字典的名字则是标签。这里要注意的是每个列表的元素数量应该相同。...否则会报错: ValueError: arrays must all be same length 字典的列表构建DataFrame,其中每个字典代表的是每条记录(DataFrame的一行),字典每个值对应的是这条记录的相关属性...只是思路略有不同,一个是以列为单位构建,所有记录的不同属性转化为多个Series,行标签冗余,另一个是以行为单位构建,每条记录转化为一个字典,标签冗余。...df[0:3]df[0] 下标索引选取的是DataFrame的记录,与List相同DataFrame的下标也是0开始,区间索引的话,为一个左闭右开的区间,即[0:3]选取的为1-3三条记录。...(可选参数,默认为所有标签),两个参数既可以是列表也可以是单个字符,如果两个参数都为列表则返回的是DataFrame,否则,则为Series。

15K100

用Python时间序列转换为监督学习问题

仅仅是一个序列,变成成对的输入、输出序列。 这篇教程里,你学到如何把单变量、多变量时间序列问题转为机器学习算法能解决的监督学习问题。...我们可以定义一个由 10 个数字序列组成的伪时间序列数据集,该例子DataFrame 单个如下所示: from pandas import DataFrame df = DataFrame(...所有时间序列的变量可被向前或向后 shift,来创建多元输入输出序列。更多详情下文会提到。...函数返回一个单个的值: return: 序列的 Pandas DataFrame 转为监督学习。 新数据集创建为一个 DataFrame,每一通过变量字数和时间步命名。...还可以看到,NaN 值得行,已经自动 DataFrame 移除。我们可以用随机数字长度的输入序列重复该例子,比如 3。这可以通过把输入序列的长度确定为参数来实现。

3.8K20

整理了25个Pandas实用技巧(上)

更改列名 让我们来看一下刚才我们创建的示例DataFrame: ? 我更喜欢在选取pandas的时候使用点(.),但是这对那么列名中含有空格的不会生效。让我们来修复这个问题。...字符型转换为数值型 让我们来创建另一个示例DataFrame: ? 这些数字实际上储存为字符型,导致其数据类型为object: ? 为了对这些进行数学运算,我们需要将数据类型转换成数值型。...你可以对前两使用astype()函数: ? 但是,如果你对第三也使用这个函数,将会引起错误,这是因为这一包含了破折号(用来表示0)但是pandas并不知道如何处理它。...按行多个文件构建DataFrame 假设你的数据集分化为多个文件,但是你需要将这些数据集读到一个DataFrame。 举例来说,我有一些关于股票的小数聚集,每个数据集为单天的CSV文件。...按多个文件构建DataFrame 上一个技巧对于数据集中每个文件包含行记录很有用。但是如果数据集中的每个文件包含的信息呢?

2.2K20

pandas 玩转 Excel 操作总结

可以是数字(工作表0开始的索引) header:指定作为列名的行,默认为0,即第一行为列名。如果数据不含列名,则设为None names:指定新的列名列表。...列表中元素个数和数必须一致 index_col:指定列为索引,默认None指的是索引为0的第一为索引 usecols:要解析数据的,可以是int或者str的列表,也可以是以逗号分隔的字符串(pandas...usecols参数,通过它指定我们需要读取数据的,它接收字符串或者整数列表格式的数据,列表列出我们想要取出数据的的名称或者索引。...下面我们再来看一下,假设我要取出所有大于等于8000的工资,该如何进行处理呢?...xlsx") 这里我们使用DataFrame上的to_excel()方法数据写入到Excel文件

2.6K20

Pandas入门教程

pandas可以创建两种数据类型,series和DataFrame; 创建Series(类似于列表,是一个一维序列) 创建dataframe(类似于excel表格,是二维数据) df2 = pd.DataFrame...使用单个标签 data.loc[10,'salary'] # 9千-1.3万 2. 单个标签的list data.loc[:,'name'][:5] 3....axis :{0, 1, …},默认为 0。要沿其连接的轴。 join: {'inner', 'outer'}, 默认为 'outer'。如何处理其他轴上的索引。外部用于联合,内部用于交集。...levels: 序列列表,默认无。用于构建 MultiIndex 的特定级别(唯一值)。否则,它们将从密钥推断出来。 names: 列表,默认无。生成的分层索引中级别的名称。...可以是列名称、索引级别名称或长度等于 DataFrame 或 Series 长度的数组;right_on:来自正确 DataFrame 或 Series 的或索引级别用作键。

1K30

Pandas图鉴(四):MultiIndex

在关系型数据库,它被称为复合主键。 你可以在DataFrameCSV解析出来后指定要包含在索引,也可以直接作为read_csv的参数。...[0].astype(int), level=0) 在正确使用这些工具,我们首先需要了解什么是 levels 和 codes,而pdi允许你使用MultiIndex,就像level是普通的列表或NumPy...] ) 用多指标建立一个DataFrame 除了CSV文件读取和现有的建立外,还有一些方法来创建MultiIndex。...我们看看文档对命名规则的描述: "这个函数是通过类比来命名的,即一个集合被重新组织,水平位置上的并排(DataFrame)到垂直方向上的堆叠(DataFrame的索引)。"...手动解读MultiIndex的层数并不方便,所以更好的办法是在DataFrame保存为CSV之前,所有头层数stack(),而在读取之后再将其unstack()。

42020

整理了 25 个 Pandas 实用技巧,拿走不谢!

最直接的办法是使用loc函数并传递::-1,跟Python列表反转时使用的切片符号一致: ? 如果你还想重置索引使得它从0开始呢?...序反转 跟之前的技巧一样,你也可以使用loc函数左至右反转: ? 逗号之前的冒号表示选择所有行,逗号之后的::-1表示反转所有,这就是为什么country这一现在在最右边。 6....你可以对前两使用astype()函数: ? 但是,如果你对第三也使用这个函数,将会引起错误,这是因为这一包含了破折号(用来表示0)但是pandas并不知道如何处理它。...现在我们的DataFrame已经有六了。 11. 剪贴板创建DataFrame 假设你一些数据储存在Excel或者Google Sheet,你又想要尽快地将他们读取至DataFrame。...一个由列表组成的Series扩展成DataFrame 让我们创建一个新的示例DataFrame: ? 这里有两,第二包含了Python的由整数元素组成的列表

3.2K10

数据科学 IPython 笔记本 7.11 聚合和分组

在本节,我们探讨 Pandas 的聚合,类似于我们在 NumPy 数组中看到的简单操作,到基于groupby概念的更复杂的操作。...“应用”步骤涉及计算单个组内的某些函数,通常是聚合,转换或过滤。 “组合”步骤这些操作的结果合并到输出数组。...GroupBy的强大之处在于,它抽象了这些步骤:用户不需要考虑计算如何在背后完成,而是考虑整个操作。 作为一个具体的例子,让我们看看, Pandas 用于此图中所示的计算。...它可以接受字符串,函数或其列表,并一次计算所有聚合。...指定分割键 在之前介绍的简单示例,我们DataFrame拆分为单个列名。这只是定义分组的众多选项之一,我们将在此处介绍分组规则的其他选项。

3.6K20

数据处理利器pandas入门

想入门 Pandas,那么首先需要了解Pandas的数据结构。因为Pandas数据操作依赖于数据结构对象。Pandas中最常用的数据结构是 Series 和 DataFrame。...如果仅给定列表,不指定index参数,默认索引为0开始的数字。注意:索引标签为字符串和整数的混合类型。记住不要使用浮点数作为索引,并且尽量避免使用混合类型索引。...data[['date', 'hour', 'type', '1001A']] # 获取四所有行数据,仍为DataFrame data[0:5] # 选择所有前5行数据,仅包括索引0-4行 超纲题...单个整数 data.iloc[0] # 返回第1行的所有,结果为Series 整数数组 data.iloc[[0,2,4,6,8], [0,1,2,3]] 整数切片 data.iloc[0:10,...上述操作返回的仍然是 MultiIndex,因为此时只有一个站点了,我们可以使用 .xs 方法MultiIndex转换为Index。

3.6K30

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

~ 按行 用多个文件建立 DataFrame ~ 按 剪贴板创建 DataFrameDataFrame 分割为两个随机子集 根据多个类别筛选 DataFrame 根据最大的类别筛选 DataFrame...创建 DataFrame 创建 DataFrame 的方式有很多,比如,可以把字典传递给 DataFrame 构建器,字典的 Key 是列名,字典的 Value 为列表,是 DataFrame的值...把文件名规则传递给 glob(),这里包括通配符,即可返回包含所有规文件名的列表。 本例里,glob 会查找 data 子目录里所有以 stocks 开头的 CSV 文件。 ?...把 Series 里的列表转换为 DataFrame 创建一个 DataFrame 示例。 ? 这里包含了两,第二包含的是 Python 整数列表。...年龄列有 1 位小数,票价列有 4 位小数,如何这两显示的小数位数标准化? 用以下代码让这两只显示 2 位小数。 ? 第一个参数是要设置的选项名称,第二个参数是 Python 的字符串格式。

7.1K20

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Pandas ,您使用特殊方法/向 Excel 文件读取和写入。 让我们首先基于上面示例的数据框,创建一个新的 Excel 文件。 tips.to_excel("....操作 在电子表格,公式通常在单个单元格创建,然后拖入其他单元格以计算其他的公式。在 Pandas ,您可以直接对整列进行操作。...pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以以相同的方式分配新DataFrame.drop() 方法 DataFrame 删除一。...按值排序 Excel电子表格的排序,是通过排序对话框完成的。 pandas 有一个 DataFrame.sort_values() 方法,它需要一个列表来排序。...如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表所有,而不仅仅是单个指定的; 它支持更复杂的连接操作; 其他注意事项 1.

19.5K20

Pandas必会的方法汇总,建议收藏!

对象可以是列表\ndarray、字典以及DataFrame的某一行或某一 2 pd.DataFrame(data,columns = [ ],index = [ ]) 创建DataFrame。...,选取单列或列子集 4 df.1oc[val1,val2] 通过标签,同时选取行和 5 df.iloc[where] 通过整数位置,DataFrame选取单个行或行子集 6 df.iloc[:,where...] 通过整数位置,DataFrame选取单个或列子集 7 df.iloc[where_i,where_j] 通过整数位置,同时选取行和 8 df.at[1abel_i,1abel_j] 通过行和标签...3 DataFrame.sort_values(by, axis=0, ascending=True) 参数by为axis轴上的某个索引或索引列表。...再将网页转换为表格时很有用 5 read_excel ExcelXLS或XLSXfile 读取表格数据 6 read_hdf 读取pandas写的HDF5文件 7 read_html 读取HTML文档所有表格

4.7K40
领券