首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

用 Pandas 进行数据处理系列 二

获取指定的列 import pandas as pd df = pd.read_csv('xxxx.xls') 获取操作df.loc[3:6]获取列操作df['rowname']取两列df[['...,ascending=True) , inplace 表示排序的时候是否生成一个新的 dataFrame , ascending=True 表示升序,默认为升序,如果存在缺失的补值( Nan ),排序的时候会将其排在末尾...pr 列的值大于 3000 , group 列显示 hight , 否则显示 low df['group'] = np.where(df['pr'] > 3000, 'hight', 'low') 对复合多个条件的数据进行分级标记...,然后将符合条件的数据提取出来pd.DataFrame(category.str[:3])提取前三个字符,并生成数据表 数据筛选 使用与、或、非三个条件配合大于、小于、等于对数据进行筛选,并进行计数求和...() 数据汇总 主要使用 groupby pivote_table 进行处理。

8.1K30

首次公开,用了三年的 pandas 速查表!

df.tail(n) # 查看 DataFrame 对象的最后n df.sample(n) # 查看 n 个样本,随机 df.shape # 查看行数列数 df.info() # 查看索引、数据类型内存信息...df.expanding(2).sum() # 超出(大于、小于)的值替换成对应值 df.clip(-4, 6) # AB 两列想加增加 C 列 df['C'] = df.eval('A+B') #...Groupby对象 df.groupby(col1)[col2] # 返回按列col1进行分组后,列col2的均值 # 创建一个按列col1进行分组,并计算col2col3的最大值的数据透视表 df.pivot_table...='设计师ID').agg({'结算金额':sum}) df.groupby(by=df.pf).ip.nunique() # groupby distinct, 分组+去重数 df.groupby(by...=df.pf).ip.value_counts() # groupby 分组+去重的值及数量 df.groupby('name').agg(['sum', 'median', 'count']) 12

7.4K10

Pandas三百题

().sum() 9-计算缺失值|分列 具体每列有多少缺失值 df.isnull().sum() 10-查看缺失值 查看全部缺失值所在的 df[df.isnull().T.any()==True] 11...30 如果一个国家的金牌数大于 30 值为 是,反之为否 df['金牌大于30'] = df['金牌数'].apply(lambda x : '是' if x >30 else '否') df['金牌大于...3] 30-筛选|判断(大于) 提取金牌数大于30的 df[df['金牌数']>30] 31-筛选|判断(等于) 提取金牌数等于10的 df[df['金牌数']==10] 32-筛选|判断(不等于...- 分组规则|通过字典 将 score matchScore 的记为总分,与 salary 列同时进行分组,并查看结果 df.groupby({'salary':'薪资','score':'总分...,'数量'],index = ['省/自治区','类别'],aggfunc = ['mean',sum],margins=True) 9 - 数据透视|筛选 在上一题的基础上,查询 「类别」 等于 「办公用品

4.6K22

python数据分析——数据分类汇总与统计

如果说用groupby进行数据分组,可以看做是基于(或者说是index)操作的话,agg函数则是基于列的聚合操作。...如果不想接收GroupBy自动给出的那些列名,那么如果传入的是一个由(name,function)元组组成的列表,各元组的第一个元素就会用作DataFrame的列名(可以将这种二元元组列表看做一个有序映射...组装到一起,并以分组名称进行了标记。...为True时,/列小计总计的名称; 【例17】对于DataFrame格式的某公司销售数据workdata.csv,存储在本地的数据的形式如下,请利用Python的数据透视表分析计算每个地区的销售总额利润总额...传入margins=True参数(添加小计/总计) ,将会添加标签为ALL的列。

19710

用Python实现excel 14个常用操作,Vlookup、数据透视表、去重、筛选、分组等

sale.groupby(["地区名称","业务员名称"])["利润"].sum() 九、条件计算 需求:存货名称含“三星字眼”并且税费高于1000的订单有几个?...sale.groupby("地区名称")["利润"].sum().describe() 根据四分位数把地区总利润为[-9,7091]区间的分组为“较差”,(7091,10952]区间的分组为"中等"...#先建立一个Dataframe sale_area=pd.DataFrame(sale.groupby("地区名称")["利润"].sum()).reset_index() #设置bins,分组名称...30%的商品信息并标记它为优质商品,小于5%为一般商品。...比如一个很简单的操作:对各列求和并在最下一显示出来,excel就是对一列总一个sum()函数,然后往左一拉就解决,而python则要定义一个函数(因为python要判断格式,若非数值型数据直接报错。)

2.5K10

Power Pivot中3大汇总函数的配套组合函数

如果分组依据有多列,而RollUp未汇总全部列,汇总未选择列。(可以看案例加深理解) D. 作用 返回小计汇总 E. 案例 表3 ?...注意事项 仅在SUMMARIZEADDMISSINGITEMS函数中使用。 如果RollUp用法一样,效果也类似同RollUp。 如果嵌套RollUp使用,用于内部小计及小计汇总。...如果RollUp一致效果一致,如果范围不一样效果不一样。 D. 作用 一般用于过程检查以及链接回表 E. 案例 表3 ?...注意事项 如果ROLLUPISSUBTOTALISSUBTOTAL函数一起使用,参数要一致 D. 作用 重新添加包含空度量值的 E. 案例 ?...返回 不返回值,仅标记是否小计 C. 注意事项 只在ADDMISSINGITEMS内使用。 D. 作用 将汇总组合添加的列配对,返回一个逻辑值。 E. 案例 ?

1.4K20

(七)Hive总结

处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤。...如果一个任务有很多小文件(远远小于块大小128m),每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。...,那么如果这些小文件作为下一个任务的输入,也会出现小文件过多的问题; 在设置Reduce个数的时候也需要考虑这两个原则:处理大数据量利用合适的Reduce数;使单个Reduce任务处理数据量大小要合适...第二次优化 考虑到trackinfo表的ext_field7字段缺失率很高(为空、字段长度为、字段填充了非整数)情况,做进行左关联时空字段的关联操作实际上没有意义,因此,如果左表关联字段ext_field7...(2)mapjoin (3)开启数据倾斜时负载均衡 set hive.groupby.skewindata=true; 思想:就是先随机分发并处理,再按照key group by来分发处理。

1.3K20
领券