首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas速查卡-Python数据科学

开始学习pandas时要记住所有常用函数和方法显然是有困难,所以在Dataquest(https://www.dataquest.io/)我们主张查找pandas参考资料(http://pandas.pydata.org...来开始学习pandas等数据科学课程。...('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据框n df.tail(n) 数据框n df.shape() 行数和列数...=n) 删除所有小于n个非空值 df.fillna(x) 用x替换所有空值 s.fillna(s.mean()) 将所有空值替换为均值(均值可以用统计部分中几乎任何函数替换) s.astype(float...,col1分组并计算col2和col3平均值 df.groupby(col1).agg(np.mean) 查找每个唯一col1组所有列平均值 data.apply(np.mean) 在每个列上应用函数

9.2K80
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas速查手册中文版

= pd.date_range('1900/1/30', periods=df.shape[0]):增加一个日期索引 查看、检查数据 df.head(n):查看DataFrame对象n df.tail...(n):查看DataFrame对象最后n df.shape():查看行数和列数 http:// df.info() :查看索引、数据类型和内存信息 df.describe():查看数值型列汇总统计...df.dropna(axis=1):删除所有包含空值df.dropna(axis=1,thresh=n):删除所有小于n个非空值 df.fillna(x):用x替换DataFrame对象中所有的空值...,后col2降序排列数据 df.groupby(col):返回一个列col进行分组Groupby对象 df.groupby([col1,col2]):返回一个多列进行分组Groupby对象 df.groupby...col1进行分组,并计算col2和col3最大值数据透视表 df.groupby(col1).agg(np.mean):返回列col1分组所有列均值 data.apply(np.mean):对

12.1K92

14个pandas神操作,手把手教你写代码

目前Python正式版已经更新到3.9版本,且官方不再维护2.0版本,因此建议初学者(包括已经在学习)至少3.6版本开始学习Python,之后版本功能差异不会太大。...; 数据转置,如转列、列转行变更处理; 连接数据库,直接用SQL查询数据并进行处理; 对时序数据进行分组采样,如按季、按月、工作小时,也可以自定义周期,如工作日; 窗口计算,移动窗口统计、日期移动等...图2 读取数据执行效果 其中: 自动增加了第一列,是Pandas为数据增加索引,0开始,程序不知道我们真正业务索引,往往需要后面重新指定,使它有一定业务意义; 由于数据量大,自动隐藏了中间部分...注意,这里并没有修改原Excel,我们读取数据后就已经和它没有关系了,我们处理是内存中df变量。 将name建立索引后,就没有0开始数字索引了,如图4所示。 ?...: df.groupby('team').sum() # 团队分组对应列相加 df.groupby('team').mean() # 团队分组对应列求平均 # 不同列不同计算方法 df.groupby

3.3K20

Pandas 进行数据处理系列 二

获取指定列和 import pandas as pd df = pd.read_csv('xxxx.xls') 获取操作df.loc[3:6]获取列操作df['rowname']取两列df[['...loc函数标签值进行提取iloc位置进行提取ix可以同时标签和位置进行提取 具体使用见下: df.loc[3]索引提取单行数值df.iloc[0:5]索引提取区域行数据值df.reset_index...()重设索引df=df.set_index(‘date’)设置 date 为索引df[:‘2013’]提取 2013 之前所有数据df.iloc[:3,:2] 0 位置开始,前三,前两列,这里数据不同去是索引标签名称...df.groupby(‘city’).count() city 列分组后进行数据汇总df.groupby(‘city’)[‘id’].count() city 进行分组,然后汇总 id 列数据df.groupby...= df.groupby('Country').agg(['min', 'mean', 'max']) print(df_agg) 对分组部分列进行聚合 import pandas as pd

8.1K30

快速介绍Python数据分析库pandas基础知识和代码示例

我创建了这个pandas函数备忘单。这不是一个全面的列表,但包含了我在构建机器学习模型中最常用函数。让我们开始吧!...本附注结构: 导入数据 导出数据 创建测试对象 查看/检查数据 选择查询 数据清理 筛选、排序和分组 统计数据 首先,我们需要导入pandas开始: import pandas as pd 导入数据...df.head(3) # First 3 rows of the DataFrame ? tail():返回最后n。这对于快速验证数据非常有用,特别是在排序或附加行之后。...通常回根据一个或多个列值对panda DataFrame进行排序,或者根据panda DataFrame索引值或名称进行排序。 例如,我们希望学生名字升序排序。...假设我们想性别将值分组,并计算物理和化学列平均值和标准差。

8.1K20

Pandas_Study02

# axis 操作,how 原理同上 # 同时可以添加条件删除 print(df.dropna(axis = 1, thresh = 2)) # axis=1列操作,thresh 指示这一列或中有两个或以上非...复杂 使用向前 或 向后 填充数据,依旧使用fillna 方法,所谓向前 是指 取出现NaN值前一列或前一数据来填充NaN值,向后同理 # 在df e 这一列上操作,默认下操作,向前填充数据...() """ 可以看出,当待填充列或符合条件时,会最近那个非NaN值开始将之后位置全部填充,填充数值为列上保留数据最大值最小值之间浮点数值。...([df1, df2]) 当然,列标和标不一定是对应,这个时候两DataFrame未匹配上label或columns下值为NaN concat 函数 同样可以指定是操作还是列操作。...简单单列分组 # 单列进行分组 dg = df0.groupby("fruit") # 打印查看fruit分组每组组名,及详细信息 for n, g in dg: print "group_name

18110

妈妈再也不用担心我忘记pandas操作了

、检查数据: df.head(n) # 查看DataFrame对象n df.tail(n) # 查看DataFrame对象最后n df.shape() # 查看行数和列数 df.info()...,col2], ascending=[True,False]) # 先按列col1升序排列,后col2降序排列数据 df.groupby(col) # 返回一个列col进行分组Groupby对象...df.groupby([col1,col2]) # 返回一个多列进行分组Groupby对象 df.groupby(col1)[col2] # 返回列col1进行分组后,列col2均值 df.pivot_table...(index=col1, values=[col2,col3], aggfunc=max) # 创建一个列col1进行分组,并计算col2和col3最大值数据透视表 df.groupby(col1...).agg(np.mean) # 返回列col1分组所有列均值 data.apply(np.mean) # 对DataFrame中每一列应用函数np.mean data.apply(np.max

2.2K31

首次公开,用了三年 pandas 速查表!

对象n df.tail(n) # 查看 DataFrame 对象最后n df.sample(n) # 查看 n 个样本,随机 df.shape # 查看行数和列数 df.info() # 查看索引...=n) # 删除所有小于 n 个非空值 df.fillna(x) # 用x替换DataFrame对象中所有的空值 df.fillna(value={'prov':'未知'}) # 指定列空值替换为指定内容...col2]) # 返回一个多列进行分组Groupby对象 df.groupby(col1)[col2] # 返回列col1进行分组后,列col2均值 # 创建一个列col1进行分组,并计算col2...col1分组所有列均值 # 列将其他列转行 pd.melt(df, id_vars=["day"], var_name='city', value_name='temperature') # 交叉表是用于统计分组频率特殊透视表...Sub-Slide:副页面,通过上下方向键进行切换。全屏 Fragment:一开始是隐藏空格键或方向键后显示,实现动态效果。在一个页面 Skip:在幻灯片中不显示单元。

7.4K10

Python替代Excel Vba系列(二):pandas分组统计与操作Excel

[总分]列为判断依据 导入包 本文所需包,安装命令如下: pip install xlwings pip install pandas 脚本中导入 本文只说重点细节,至于如何 excel 中读取数据...排名 首先需要解决是怎么得到班级 top 3? 首要任务是得到排名,如下: 这里需要在数据中新增一列[排名] df.groupby('班级') 就是 班级 分组意思。...df.sort_values(['班级','排名'],inplace=True) ,先[班级]后[排名]进行排序,不是必须,只是为了方便查看数据。...注意看第3和4数据,他们是并列第3名。并且后面的人是第5名开始。 找出低水平学生 现在找出低于所在班级平均分同学吧。 先按班级计算平均分,然后把平均分填到每一上。...给表格加点颜色 首先定义一个设置颜色方法 indices=(n for n in arg_df.index) , 获得结果索引值。

1.6K30

pandas技巧4

对象n df.tail(n) # 查看DataFrame对象最后n df.shape() # 查看行数和列数 df.info() # 查看索引、数据类型和内存信息 df.columns() #...,:] # 返回第一 df.iloc[0,0] # 返回第一列第一个元素 df.loc[0,:] # 返回第一(索引为默认数字时,用法同df.iloc),但需要注意是loc是索引,iloc参数只接受数字参数...删除所有包含空值 df.dropna(axis=1) # 删除所有包含空值df.dropna(axis=1,thresh=n) # 删除所有小于n个非空值 df.fillna(value=...(col) # 返回一个列col进行分组Groupby对象 df.groupby([col1,col2]) # 返回一个多列进行分组Groupby对象 df.groupby(col1)[col2...=[col2,col3], aggfunc={col2:max,col3:[ma,min]}) # 创建一个列col1进行分组,计算col2最大值和col3最大值、最小值数据透视表 df.groupby

3.4K20

Pandas基础:列方向分组变形

小小明:「凹凸数据」专栏作者,Pandas数据处理高手,致力于帮助无数数据从业者解决数据处理难题。 刚才碰到一个非常简单需求: ? 但是我发现大部分人在做这个题时候,代码写异常复杂。...首先读取数据: import pandas as pd df = pd.read_excel("练习.xlsx", index_col=0) df 结果: ?...为了后续处理方便,我将不需要参与分组第一列事先设置为索引。 groupby分组相信大部分读者都使用过,但一直都是分组,不过groupby不仅可以分组,还可以列进行分组。...可以看到,非常简单,仅8以内代码已经解决这个问题,剩下只需在保存到excel时设置一下单元格格式即可,具体设置方法可以参考:Pandas指定样式保存excel数据N种姿势 简单讲解一下吧: df.columns.str...,axis=1则指定了groupby列进行分组而不是默认分组

1.4K20

Excel到Python:最常用36个Pandas函数

本文为粉丝投稿Excel到Python》读书笔记 本文涉及pandas最常用36个函数,通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理,以及最常见数据分类,数据筛选,分类汇总,透视等最常见操作...在开始使用Python进行数据导入前需要先导入numpy和pandas库 import numpy as np import pandas as pd 导入外部数据 df=pd.DataFrame(pd.read_csv...Head函数用来查看数据表中N行数据 #查看前3数据 df.head(3) 9.查看后10数据 Tail行数与head函数相反,用来查看数据表中后N数据 #查看最后3 df.tail(3...2.位置提取(iloc) 使用iloc函数位置对数据表中数据进行提取,这里冒号前后 数字不再是索引标签名称,而是数据所在位置,0开始。...Python中通过pivot_table函数实现同样效果 #设定city为字段,size为列字段,price为值字段。 分别计算price数量和金额并且与列进行汇总。

11.4K31

Day.5利用Pandas做数据处理(二)

# 使用join合并,着重关注合并 import pandas as pd df1=pd.DataFrame({'Red':[1,3,5],'Green':[5,0,3]},index=list...,直接跳过层级,最内层开始取) print(s.iloc[1]) print(s.iloc[1:4]) # 注:列值中数字是随机数,这里不附上运行结果,可以先把复制过去,全部注释,然后一运行...,所以运行完一次,我们将print注释 # 创建一个含有一千时间序列,时间跨度2019年到2021年 long_ts = pd.Series(np.random.randn(1000),index...‘Age’分组范围对性别(sex)进行分组统计 print(pd.crosstab(age_groups, df['Sex'])) ''' Name: Age, Length: 100, dtype:...def top(smoker,col,n=5): return smoker.sort_values(by=col)[-n:]# [-n:]切片,负号表示末尾往前取 print(df1

3.8K20

高效10个Pandas函数,你都用过吗?

df: 在第三列位置插入新列: #新列值 new_col = np.random.randn(10) #在第三列位置插入新列,0开始计算 df.insert(2, 'new_col', new_col...Sample Sample用于DataFrame中随机选取若干个或列。...random_state :随机数发生器种子 axis:选择抽取数据还是列 axis=0:抽取 axis=1:抽取列 比如要从df中随机抽取5: sample1 = df.sample(n=5...) sample1 df随机抽取60%,并且设置随机数种子,每次能抽取到一样样本: sample2 = df.sample(frac=0.6,random_state=2) sample2...用法: DataFrame.loc[] 或者 DataFrame.iloc[] loc:标签(column和index)选择和列 iloc:索引位置选择和列 选择df第1~3、第1~2列数据

4.1K20

esproc vs python 4

df.shift(1)表示将原来df下一,即相对于当前行为上一,给该数组赋值为增长比(当前行减上一值除以上一值),由于月份不同,所以将上一与该行相同月份赋值为nan,最后将该数组赋值给...,排列/序表A中找到主键等于k成员,有索引表则使用索引表。...@d选项,A(1)中去掉A(2) &…A(n)中成员后形成新序表/排列,即求差集。新表与旧表差集即新增加记录。 A7:求旧表与新表差集,即旧表中删除记录。...最后将该数组转换为dataframe,得到这种货物出入库状态 将所有货物出入库状态都放入开始新建list中 最后pd.concat([df1,df2,…,dfn],ignore_index)合并这些...另外python中merge函数不支持差集计算(或许其他函数支持),造成在第四例中特别麻烦。python pandasdataframe结构是列进行存储循环时就显得特别麻烦。

1.9K10
领券