首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 进行数据处理系列 二

df 的索引列,列名称为 category size pd.DataFrame((x.split('-') for x in df['category']), index...loc函数标签值进行提取iloc位置进行提取ix可以同时标签位置进行提取 具体的使用见下: df.loc[3]索引提取单行的数值df.iloc[0:5]索引提取区域行数据值df.reset_index...()重设索引df=df.set_index(‘date’)设置 date 为索引df[:‘2013’]提取 2013 之前的所有数据df.iloc[:3,:2]从 0 位置开始,前三行,前两列,这里的数据不同去是索引的标签名称...,然后将符合条件的数据提取出来pd.DataFrame(category.str[:3])提取前三个字符,并生成数据表 数据筛选 使用与、或、非三个条件配合大于、小于、等于对数据进行筛选,并进行计数求和...pr 进行求和 df.query('city' == ['beijing', 'shanghai']).pr.sum() 数据汇总 主要使用 groupby pivote_table 进行处理。

8.1K30

Python 数据分析初阶

一列数据计算 data['column_name'].value_counts() 以之前找到的一个前辈的数据为例子,首先我们要获取文件 import pandas as pd data = pd.read_excel...('xxxx.xls') 这里可以单独查看其中的内容 data['nick'],计算其中大小则使用 data['nick'].value_counts()。...df 的索引列,列名称为 category size pd.DataFrame((x.split('-') for x in df['category']), index...: df.loc[3]: 索引提取单行的数值 df.iloc[0:5]: 索引提取区域行数据值 df.reset_index(): 重设索引 df=df.set_index('date'):...设置 date 为索引 df[:'2013']: 提取 2013 之前的所有数据 df.iloc[:3,:2]: 从 0 位置开始,前三行,前两列,这里的数据不同去是索引的标签名称,而是数据所有的位置

1.3K20
您找到你想要的搜索结果了吗?
是的
没有找到

Python数据分析笔记——Numpy、Pandas

每个数组都有一个shape(一个表示各维度大小的元组,即表示有几行几列)dtype(一个用于说明数组数据类型的对象)。本节将围绕ndarray数组展开。...Pandas基本功能 1、重新索引 Pandas对象的一个方法就是重新索引(reindex),其作用是创建一个新的索引pandas对象将这个新索引进行排序。对于不存在的索引值,引入缺失值。...也可以columns(行)进行重新索引,对于不存在的列名称,将被填充空值。 对于不存在的索引值带来的缺失值,也可以在重新索引时使用fill_value给缺失值填充指定值。...obj.rank() (2)DataFrame数据结构的排序排名 索引值进行排列,一列或多列中的值进行排序,通过by将列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna...(列从0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用的数学统计运算。大部分都属于约简汇总统计。 其中求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。

6.4K80

pandas用法-全网最详细教程

'B'].isnull() 7、查看某一列的唯一值: df['B'].unique() 8、查看数据表的值: df.values 9、查看列名称: df.columns 10、查看前5行数据、后5行数据...df_inner的索引列,列名称为categorysize pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index...=True, left_index=True) 五、数据提取 主要用到的三个函数:loc,ilocix,loc函数标签值进行提取,iloc位置进行提取,ix可以同时标签位置进行提取。...1、索引提取单行的数值 df_inner.loc[3] 2、索引提取区域行数值 df_inner.iloc[0:5] 3、重设索引 df_inner.reset_index() 4、设置日期为索引...7、适应iloc位置单独提起数据 df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行,4、5列 8、使用ix索引标签位置混合提取数据 df_inner.ix[:'2013

5.4K30

Pandas图鉴(三):DataFrames

这个过程如下所示: 索引Pandas中有很多用途: 它使通过索引列的查询更快; 算术运算、堆叠、连接是索引排列的;等等。 所有这些都是以更高的内存消耗更不明显的语法为代价的。...第二种情况,它对行列都做了同样的事情。向Pandas提供列的名称而不是整数标签(使用列参数),有时提供行的名称。...首先,你可以只用一个名字来指定要分组的列,如下图所示: 如果没有as_index=False,Pandas会把进行分组的那一列作为索引列。...默认情况下,Pandas会对任何可远程求和的东西进行求和,所以必须缩小你的选择范围,如下图: 注意,当对单列求和时,会得到一个Series而不是一个DataFrame。...pivot失去了关于结果的 "主体" 名称的信息,所以对于 stack melt,我们必须 "提醒" Pandas关于 quantity 列的名称

32820

直观地解释可视化每个复杂的DataFrame操作

包含值的列将转换为两列:一列用于变量(值列的名称),另一列用于值(变量中包含的数字)。 ? 结果是ID列的值(a,b,c)值列(B,C)及其对应值的每种组合,以列表格式组织。...当一列爆炸时,其中的所有列表将作为新行列在同一索引下(为防止发生这种情况, 此后只需调用 .reset_index()即可)。...Stack 堆叠采用任意大小的DataFrame,并将列“堆叠”为现有索引的子索引。因此,所得的DataFrame仅具有一列两级索引。 ? 堆叠名为df的表就像df.stack()一样简单 。...作为另一个示例,当级别设置为0(第一个索引级别)时,其中的值将成为列,而随后的索引级别(第二个索引级别)将成为转换后的DataFrame的索引。 ?...使用联接时,公共键列(类似于 合并中的right_on left_on)必须命名为相同的名称

13.3K20

【Python环境】Python中的结构化数据分析利器-Pandas简介

Pandas名称来自于面板数据(panel data)python数据分析(data analysis)。...这篇文章会介绍一些Pandas的基本知识,偷了些懒其中采用的例子大部分会来自官方的10分钟学Pandas。我会加上个人的理解,帮助大家记忆学习。...或者以数据库进行类比,DataFrame中的每一行是一个记录,名称为Index的一个元素,而每一列则为一个字段,是这个记录的一个属性。...其中one只有3个值,因此d行one列为NaN(Not a Number)--Pandas默认的缺失值标记。...与此等价,还可以用起始的索引名称结束索引名称选取数据: df['a':'b'] 有一点需要注意的是使用起始索引名称结束索引名称时,也会包含结束索引的数据。

15K100

系统性的学会 Pandas, 看这一篇就够了!

() 结果: (3)以某列值设置为新的索引 set_index(keys, drop=True) keys : 列索引名成或者列索引名称的列表 drop : boolean, default True...Numpy当中我们已经讲过使用索引选取序列切片选择,pandas也支持类似的操作,也可以直接使用列名、行名称,甚至组合使用。...(混合索引:下标名称) 获取行第1天到第4天,[‘open’, ‘close’, ‘high’, ‘low’]这个四个指标的结果: # 使用ix进行下表名称组合做引 data.ix[0:4, ['open...以上这些函数可以对seriesdataframe操作,这里我们按照时间的从前往后来进行累计 排序 # 排序之后,进行累计求和 data = data.sort_index() 对p_change进行求和...所以我们需要知道Pandas如何进行读取存储JSON格式。

4K20

系统性的学会 Pandas, 看这一篇就够了!

() 结果: (3)以某列值设置为新的索引 set_index(keys, drop=True) keys : 列索引名成或者列索引名称的列表 drop : boolean, default True...Numpy当中我们已经讲过使用索引选取序列切片选择,pandas也支持类似的操作,也可以直接使用列名、行名称,甚至组合使用。...(混合索引:下标名称) 获取行第1天到第4天,[‘open’, ‘close’, ‘high’, ‘low’]这个四个指标的结果: # 使用ix进行下表名称组合做引 data.ix[0:4, ['open...以上这些函数可以对seriesdataframe操作,这里我们按照时间的从前往后来进行累计 排序 # 排序之后,进行累计求和 data = data.sort_index() 对p_change进行求和...所以我们需要知道Pandas如何进行读取存储JSON格式。

4.3K30

一句Python,一句R︱pandas模块——高级版data.frame

pandas 是基于 Numpy 构建的含有更高级数据结构工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series DataFrame 两个核心数据结构展开的...df=DataFrame(data) 其中DataFrame(data=None,index=None,columns=None)其中index代表行名称,columns代表列名称 其中df.index.../df.columns分别代表行名称与列名称: df.index #行名 df.columns #列名 其中index也是索引,而且不是那么好修改的。...,然后sorted代表对第一列进行排序; a.ix[:,1]-1 代表排好的秩,-1就还原到数据可以认识的索引。...argmin , argmax 最小值最大值的索引位置(整数) idxmin , idxmax 最小值最大值的索引值 quantile 样本分位数(0 到 1) sum 求和 mean 均值 median

4.7K40

系统性总结了 Pandas 所有知识点

() 结果: (3)以某列值设置为新的索引 set_index(keys, drop=True) keys : 列索引名成或者列索引名称的列表 drop : boolean, default True...Numpy当中我们已经讲过使用索引选取序列切片选择,pandas也支持类似的操作,也可以直接使用列名、行名称,甚至组合使用。...(混合索引:下标名称) 获取行第1天到第4天,[‘open’, ‘close’, ‘high’, ‘low’]这个四个指标的结果: # 使用ix进行下表名称组合做引 data.ix[0:4, ['open...以上这些函数可以对seriesdataframe操作,这里我们按照时间的从前往后来进行累计 排序 # 排序之后,进行累计求和 data = data.sort_index() 对p_change进行求和...所以我们需要知道Pandas如何进行读取存储JSON格式。

3.1K20

系统性的学会 Pandas, 看这一篇就够了!

() 结果: (3)以某列值设置为新的索引 set_index(keys, drop=True) keys : 列索引名成或者列索引名称的列表 drop : boolean, default True...Numpy当中我们已经讲过使用索引选取序列切片选择,pandas也支持类似的操作,也可以直接使用列名、行名称,甚至组合使用。...(混合索引:下标名称) 获取行第1天到第4天,[‘open’, ‘close’, ‘high’, ‘low’]这个四个指标的结果: # 使用ix进行下表名称组合做引 data.ix[0:4, ['open...以上这些函数可以对seriesdataframe操作,这里我们按照时间的从前往后来进行累计 排序 # 排序之后,进行累计求和 data = data.sort_index() 对p_change进行求和...所以我们需要知道Pandas如何进行读取存储JSON格式。

4.1K40

Pandas基本功能详解 | 轻松玩转Pandas(2)

直接对 age 这一列调用 max方法即可。 user_info.age.max() 40 类似的,通过调用 min、mean、quantile、sum 方法可以实现最小值、平均值、中位数以及求和。...来介绍个有意思的方法:cumsum,看名字就发现它 sum 方法有关系,事实上确实如此,cumsum 也是用来求和的,不过它是用来累加求和的,也就是说它得到的结果与原始的 Series 或 DataFrame...大小相同。...Pandas 支持两种排序方式:轴(索引或列)排序实际值排序。 先来看下索引排序:sort_index 方法默认是按照索引进行正序排的。...name Tom 18 beijing male Bob 30 shanghai male Mary 25 guangzhou female James 40 shenzhen male 修改列/索引名称

1.8K20

手把手教你做一个“渣”数据师,用Python代替老情人Excel

使用index_col参数可以操作数据框中的索引列,如果将值0设置为none,它将使用第一列作为index。 ?...5、略过行列 默认的read_excel参数假定第一行是列表名称,会自动合并为DataFrame中的列标签。...1、查看列 包括以下三种主要方法: 使用点符号:例如data.column_name 使用方括号名称:数据[“COLUMN_NAME”] 使用数字索引iloc选择器:data.loc [:,'column_number...3、查看特定行 这里使用的方法是loc函数,其中我们可以指定以冒号分隔的起始行结束行。注意,索引从0开始而不是1。 ? 4、同时分割行列 ? 5、在某一列中筛选 ? 6、筛选多种数值 ?...3、求和 行或列求和数据: ? 为每行添加总列: ? 4、将总列添加到已存在的数据集 ? 5、特定列的总和,使用loc函数 ? 或者,我们可以用以下方法: ? 6、用drop函数删除行 ?

8.3K30

最全面的Pandas的教程!没有之一!

分组统计 Pandas 的分组统计功能可以一列的内容对数据行进行分组,并对其应用统计函数,比如求和,平均数,中位数,标准差等等… 举例来说,用 .groupby() 方法,我们可以对下面这数据表...因为我们没有指定堆叠的方向,Pandas 默认行的方向堆叠,把每个表的索引顺序叠加。 如果你想要按列的方向堆叠,那你需要传入 axis=1 参数: ? 注意,这里出现了一大堆空值。... .merge() 不同,连接采用索引作为公共的键,而不是某一列。 ? 同样,inner 代表交集,Outer 代表并集。...排序 如果想要将整个表一列的值进行排序,可以用 .sort_values() : ? 如上所示,表格变成 col2 列的值从小到大排序。...Pandas 的数据透视表能自动帮你对数据进行分组、切片、筛选、排序、计数、求和或取平均值,并将结果直观地显示出来。比如,这里有个关于动物的统计表: ?

25.8K63

Pandas 秘籍:1~5

它代表一列数据。 连同索引值一起,输出显示序列的名称,长度和数据类型。 或者,虽然不建议这样做,但可能会出错,但是可以使用带有列名作为属性的点表示法来访问数据列。...它具有三个互斥的参数items,likeregex,一次只能使用其中一个。like参数采用一个字符串,并尝试查找名称中某处包含该确切字符串的所有列名称。...Pandas 定义了内置的len函数以返回行数。 步骤 2 步骤 3 中的方法将每一列汇总为一个数字。 现在,每个列名称都是序列中的索引标签,其汇总结果为相应的值。...正如我们在最后一步中年份得分排序一样,我们获得的年度最高评分电影。 更多 可以升序对一列进行排序,而同时降序对另一列进行排序。...操作步骤 读取以机构名称作为索引的大学数据集,然后从索引 10 到 20 选择每隔一行: >>> college = pd.read_csv('data/college.csv', index_col=

37.1K10

详解pd.DataFrame中的几种索引变换

导读 pandas中最常用的数据结构是DataFrame,而DataFrame相较于嵌套list或者二维numpy数组更好用的原因之一在于其提供了行索引列名。...02 reindexrename 学习pandas之初,reindexrename容易使人混淆的一组接口,就其具体功能来看: reindex执行的是索引重组操作,接收一组标签序列作为新索引,既适用于行索引也适用于列标签名...,重组之后索引数量可能发生变化索引名为传入标签序列 rename执行的是索引重命名操作,接收一个字典映射或一个变换函数,也均适用于行列索引,重命名之后索引数量不发生改变,索引名可能发生变化 另外二者执行功能接收参数的套路也是很为相近的...03 index.map 针对DataFrame中的数据,pandas中提供了一对功能有些相近的接口:mapapply,以及applymap,其中map仅可用于DataFrame中的一列(也即即Series...04 set_index与reset_index set_indexreset_index是一对互逆的操作,其中前者用于置位索引——将DataFrame中某一列设置为索引,同时丢弃原索引;而reset_index

2.1K20

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券