首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python 数据分析初阶

['b'].unique(): 查看某一唯一 df.values: 查看数据表 df.columns: 查看列名 df.head(): 查看默认前 10 行数据 df.tail():...查看默认后 10 行数据 数据表清洗 df.fillna(value=0): 用数字 0 填充空 df['pr'].fillna(df['pr'].mean()): 用 pr 平均值对 na...[(df['city'] == 'beijing') & (df['pr'] >= 4000), 'sign'] = 1 对 category 字段依次进行分列,并创建数据表,索引 df 索引...pr 进行求和 df.query('city' == ['beijing', 'shanghai']).pr.sum() 数据汇总 主要使用 groupby pivote_table 进行处理。..., np.sum,np.mean]): 对 city 进行分组,然后计算 pr 大小、总和和平均数 数据统计 数据采样,计算标准差、协方差相关系数。

1.3K20

用 Pandas 进行数据处理系列 二

[‘b’].unique()查看某一唯一df.values查看数据表df.columns查看列名df.head()查看默认前 10 行数据df.tail()查看默认后 10 行数据 数据表清洗...df.set_index('id') 按照特定排序 df.sort_values(by=['age']) 按照索引排序 df.sort_index() 如果 pr 大于 3000 , group...[(df['city'] == 'beijing') & (df['pr'] >= 4000), 'sign'] = 1 对 category 字段依次进行分列,并创建数据表,索引 df 索引...([‘beijing’])判断 city 是否为北京df.loc[df[‘city’].isin([‘beijing’,‘shanghai’])]判断 city 里是否包含 beijing shanghai...pr 进行求和 df.query('city' == ['beijing', 'shanghai']).pr.sum() 数据汇总 主要使用 groupby pivote_table 进行处理。

8.1K30
您找到你想要的搜索结果了吗?
是的
没有找到

Python Pandas 用法速查表

(维度、列名称、数据格式、所占空间等) df.dtypes 数据格式 df[‘Name’].dtype 某一格式 df.isnull() 空 df.isnull() 查看某一 df[Name...’].unique() 某一唯一 df.values 数据表 df.columns 列名称 df.head() 查看前10行数据 df.tail() 查看后10行数据 数据操作 代码 作用...() 对筛选后结果按prince进行求和 数据统计 代码 作用 df_inner.groupby(‘city’).count() 对所有的进行计数汇总 df_inner.groupby(‘city...(‘city’)[‘price’].agg([len,np.sum, np.mean]) 对city字段进行汇总,并分别计算prince合计均值 df_inner.sample(n=3) 简单数据采样...索引,列名称为categorysize df_inner=pd.merge(df_inner,split,right_index=True, left_index=True) 将完成分裂后数据表

1.8K20

Pandas进阶|数据透视表与逆透视

数据透视表将每一数据作为输入,输出将数据不断细分成多个维度累计信息二维数据表。...可以使任何对groupby有效函数 fill_value 用于替换结果表中缺失 dropna 默认为True margins_name 默认为'ALL',当参数margins为True时,ALL行名字...行索引索引都可以再设置为多层,不过行索引索引在本质上是一样,大家需要根据实际情况合理布局。...columns:指定了要分组,最终作为。 values:指定了要聚合(由行列共同影响),需要指定aggfunc参数。 rownames:指定了行名称。 colnames:指定了列名称。...必须指定values。 margins:布尔,是否分类统计。默认False。 margins_name:分类统计名称,默认是"All"。 dropna:是否包含全部是NaN

4.1K10

从Excel到Python:最常用36个Pandas函数

数据表检查 数据表检查目的是了解数据表整体情况,获得数据表关键信息、数据概况,例如整个数据表大小、所占空间、数据格式、是否有 空重复项具体数据内容,为后面的清洗预处理做好准备。...df.shape 2.数据表信息 使用info函数查看数据表整体信息,包括数据维度、列名称、数据格式所占空间等信息。...) 数据表清洗 本章介绍对数据表问题进行清洗,包括对空、大小写问题、数据格式重复处理。...Rename是更改列名称函数,我们将来数据表category更改为category-size。...#对category字段依次进行分列,并创建数据表,索引为df_inner索引,列名称为categorysize pd.DataFrame((x.split('-') for x in df_inner

11.4K31

pandas用法-全网最详细教程

1、维度查看: df.shape 2、数据表基本信息(维度、列名称、数据格式、所占空间等): df.info() 3、每一数据格式: df.dtypes 4、某一格式: df['B'].dtype...5、空: df.isnull() 6、查看某一: df['B'].isnull() 7、查看某一唯一: df['B'].unique() 8、查看数据表: df.values 9、...,并创建数据表,索引为df_inner索引,列名称为categorysize pd.DataFrame((x.split('-') for x in df_inner['category']),...[:3,:2] #冒号前后数字不再是索引标签名称,而是数据所在位置,从0开始,前三行,前两。...prince进行求和 df_inner.query('city == ["beijing", "shanghai"]').price.sum() 七、数据汇总 主要函数是groupbypivote_table

5.6K30

Power Pivot中3大汇总函数对比解释及使用介绍

返回 表——包含汇总依据及新列名表 C. 注意事项 汇总依据必须是表或者相关表。 不能用于虚拟添加这种。 尽量用其他方式来替换第3第4参数。...分组依据 第3可选重复参数 Name 增加名称,文本格式 第4可选重复参数 Expression 增加计算表达式 B....CurrentGroup函数不带参数,通常带X结尾聚合函数一起使用。 D. 作用 返回按指定分组后计算表达式结果 E....) 解释:通过姓名进行分组汇总,并计算当前汇总数据表成绩合计。...功能在某些地方SummarizeColumns以及Summarize类似,在汇总时如果为空的话,也会忽略汇总,所以姓名为无这里也依旧不显示。

1.5K20

python数据分析——数据分类汇总与统计

【例4】对groupby对象进行迭代,并打印出分组名称每组元素。 关键技术:采用for函数进行遍历, name表示分组名称, group表示分组数据。...sum','mean']}) 2.2逐及多函数应用 【例10】同时使用groupby函数agg函数进行数据聚合操作。...agg函数对该数据表进行分组聚合操作。...为True时,行/小计总计名称; 【例17】对于DataFrame格式某公司销售数据workdata.csv,存储在本地数据形式如下,请利用Python数据透视表分析计算每个地区销售总额利润总额...: 行名称 margins : 总计行/ normalize:将所有除以总和进行归一化,为True时候显示百分比 dropna :是否刪除缺失 【例19】根据国籍用手习惯对这段数据进行统计汇总

14510

数据分析系列——SQL数据库

向数据库中添加数据时,列名要一一对应,如果未写出列名,则添加数据默认顺序是存放顺序,这就引出两种添加方式,一种是向全部字段(即)添加数据,只需不写出列名就可以;另一种是向部分字段添加数据,需要写出具体添加数据列名...3)、给查询结果中换个名称 使用AS关键字给设置别名, SELECTcolumn_name1 AS ‘别名1’,column_name2 AS ‘别名2’,……....3、聚合函数 求最大函数(MAX)、最小函数(MIN)、平均值函数(AVG)、求和函数(SUM)、求记录行数函数(COUNT) SELECT 函数(column_name)FROM table_name...上面语句中:GROUPBY是分组查询关键字,在其后面写是按其分组列名,可以按照多进行分组。 HAVING是在分组查询中使用条件关键字。该关键字只能在GROUPBY后面。...HAVING子句要放在GROUPBY 子句之后,也就是要对数据进行分组,然后再对其按条件进行数据筛选。还有一点使用HAVING语句作为条件时,条件后面的只能是在GROUPBY子句后面出现过

2K80

SQL中行转列转行

而在SQL面试中,一道出镜频率很高题目就是行转列转行问题,可以说这也是一道经典SQL题目,本文就这一问题做以介绍分享。 ? 给定如下模拟数据集,这也是SQL领域经典学生成绩表问题。...两张期望数据表分别如下: 1)长表: ? scoreLong 2)宽表: ?...由多行变一行,那么直觉想到就是要groupby聚合;由一变多,那么就涉及到衍生提取; 既然要用groupby聚合,那么就涉及到将多门课成绩汇总,但现在需要不是所有成绩汇总,而仍然是各门课独立成绩...这样,无论使用任何聚合函数,都可以得到该uid下指定课程成绩结果。这里是用了sum函数,其实用min、max效果也是一样,因为待聚合数值中就只有那一个非空。...这实际上对应一个知识点是:在SQL中字符串引用用单引号(其实双引号也可以),而字段名称引用则是用反引号 上述用到了where条件过滤成绩为空记录,这实际是由于在原表中存在有空情况,如不加以过滤则在本例中最终查询记录有

7K30

Python分析成长之路9

="p" 11 ser2.index.name = 'state' 12 print(ser2) View Code 2.DataFrame:表示是矩阵数据表,它包含已排序集合,每一个可以是不同类型...loc使用方法:DataFrame.loc[行索引名称或条件,索引名称,如果内部传递是一个区间,则左闭右开。...loc内部可以出入表达式,返回布尔series       ilocloc区别是,iloc接受必须是行索引索引位置。...#返回每个分组最小 18 print(group.std()) #返回每组标准差 19 print(group.sum()) #返回每组 20 group2 = df['data1'].groupby...#返回每组标准差 print(group.sum()) #返回每组 print(group.quantile(0.9)) #返回每组分位数 group2 = df['data1'].groupby

2.1K11

用Python实现透视表value_sumcountdistinct功能

在pandas库中实现Excel数据透视表效果通常用是df['a'].value_counts()这个函数,表示统计数据框(DataFrame) dfa各个元素出现次数;例如对于一个数据表如pd.DataFrame...df['b'].sum()是对b求和,结果是21,a无关;所以我们可以自己按照根据a分表再求和思路去实现。...自己造轮子做法可以是: def df_value_sum(df,by='a',s='b'):#bys分别对应根据a对b数求和 keys=set(df[by]) ss={}...df.groupby('a').sum(),会输出一个DataFrame。...,直接在透视表行选渠道,选uid计数,得到是没去重结果,拿df表来说,假设c是用户id,a是渠道,想统计aA、B、C各渠道各有多少付费用户数,透视表结果期望结果如下图: ?

4.2K21

超全pandas数据分析常用函数总结:下篇

5.6 切割数据 对date字段依次进行分列,并创建数据表,索引为data索引,列名称为year\month\day。...6.2.2 用loc取不连续多行 提取索引为2索引为4所有行,即提取第3行第5行。 data.loc[[2,4]] 输出结果: ?...6.2.5 用iloc取连续多行 提取第3行到第6行,第4到第5,取得是行交叉点位置。 data.iloc[2:6,3:5] 输出结果: ?...6.2.6 用iloc取不连续多行 提取第3行第6行,第4第5交叉 data.iloc[[2,6],[3,5]] 输出结果: ?...8.4 以department属性进行分组汇总并计算money合计与均值 data.groupby("department")['money'].agg([len, np.sum, np.mean])

4.9K20

超全pandas数据分析常用函数总结:下篇

5.6 切割数据 对date字段依次进行分列,并创建数据表,索引为data索引,列名称为year\month\day。...6.2.2 用loc取不连续多行 提取索引为2索引为4所有行,即提取第3行第5行。 data.loc[[2,4]] 输出结果: ?...6.2.5 用iloc取连续多行 提取第3行到第6行,第4到第5,取得是行交叉点位置。 data.iloc[2:6,3:5] 输出结果: ?...6.2.6 用iloc取不连续多行 提取第3行第6行,第4第5交叉 data.iloc[[2,6],[3,5]] 输出结果: ?...8.4 以department属性进行分组汇总并计算money合计与均值 data.groupby("department")['money'].agg([len, np.sum, np.mean])

3.9K20

Pandas必会方法汇总,建议收藏!

columnsindex为指定、行索引,并按照顺序排列 举例:用pandas创建数据表: df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006...,选取单一标量 9 df.iat[i,j] 通过行位置(整数),选取单一标量 10 reindex 通过标签选取行或 11 get_value 通过行标签选取单一 12 set_value...通过行标签选取单一 举例:使用iloc按位置区域提取数据 df_inner.iloc[:3,:2] #冒号前后数字不再是索引标签名称,而是数据所在位置,从0开始,前三行,前两。...,用统计学指标快速描述数据概要 6 .sum() 计算各数据 7 .count() 非NaN数量 8 .mean( ) 计算数据算术平均值 9 .median() 计算算术中位数 10 ....),表示哪些是缺失 举例:查看数据表基本信息(维度、列名称、数据格式等等) df.info() 十、数据转换 序号 方法 说明 1 .replace(old, new) 用新数据替换老数据,

4.7K40

Pandas必会方法汇总,数据分析必备!

columnsindex为指定、行索引,并按照顺序排列 举例:用pandas创建数据表: df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006...9 .drop() 删除SeriesDataFrame指定行或索引。 10 .loc[行标签,标签] 通过标签查询指定数据,第一个为行标签,第二标签。...[:3,:2] #冒号前后数字不再是索引标签名称,而是数据所在位置,从0开始,前三行,前两。...() 针对各多个统计汇总,用统计学指标快速描述数据概要 6 .sum() 计算各数据 7 .count() 非NaN数量 8 .mean( ) 计算数据算术平均值 9 .median(...),表示哪些是缺失 举例:查看数据表基本信息(维度、列名称、数据格式等等) df.info() 十、数据转换 序号 方法 说明 1 .replace(old, new) 用新数据替换老数据,

5.9K20
领券