首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

快速介绍Python数据分析库pandas基础知识和代码示例

“软件工程师阅读教科书作为参考时不会记住所有的东西,但是要知道如何快速查找重·要知识点。” ? 为了能够快速查找和使用功能,使我们进行机器学习模型时能够达到一定流程化。...df.tail(3) # Last 3 rows of the DataFrame ? 添加或插入行 要向DataFrame追加或添加一行,我们将新行创建为Series并使用append()方法。...选择 训练机器学习模型时,我们需要将列放入X和y变量。...这是一个简单概念,但却是我们经常使用极有价值技术。Groupby概念很重要,因为它能够有效地聚合数据,无论是性能上还是代码数量上都非常出色。...我们将调用pivot_table()函数并设置以下参数: index设置为 'Sex',因为这是来自df列,我们希望一行中出现一个唯一 values为'Physics','Chemistry

8.1K20

DataFrame和Series使用

# 查看df类型 type(df) # 查看dfshape属性,可以获取DataFrame行数,列数 df.shape # 查看dfcolumns属性,获取DataFrame列名 df.columns...df行加载部分数据:先打印前5行数据 观察第一列 print(df.head()) 最左边一列是行号,也就是DataFrame行索引 Pandas默认使用行号作为行索引。...loc方法传入行索引,来获取DataFrame部分数据(一行,或多行) df.loc[0] df.loc[99] df.loc[last_row_index] iloc : 通过行号获取行数据 iloc...Series唯一计数 # 可以使用 value_counts 方法来获取Pandas Series 频数统计 df.groupby(‘continent’) → dataframeGroupby...对象就是把continent取值相同数据放到一组 df.groupby(‘continent’)[字段] → seriesGroupby对象 从分号组Dataframe数据筛序出一列 df.groupby

7810
您找到你想要的搜索结果了吗?
是的
没有找到

数据导入与预处理-课程总结-04~06章

header:表示指定文件一行数据作为DataFrame类对象列索引,默认为0,即第一行数据作为列索引。...缺失常见处理方式有三种:删除缺失、填充缺失补缺失,pandas为每种处理方式均提供了相应方法。...lsuffix: 左DataFrame重复列后缀 rsuffix: 右DataFrame重复列后缀 sort: 字典序对结果在连接键上排序 join方式为某个相同列进行join: score_df...; pd.concat()通过axis参数指定在水平还是垂直方向拼接; df.append()DataFrame末尾添加一行或多行;大致等价于pd.concat([df1,df2],axis=0...dropna:表示是否删除结果对象存在缺失一行数据,默认为True。 同时还有一个stack逆操作,unstack。

13K10

Pandas_Study02

去除 NaN Pandas各类数据Series和DataFrame里字段为NaN为缺失数据,不代表0而是说没有赋值数据,类似于pythonNone。...dropna() 删除NaN 可以通过 dropna 方法,默认行扫描(操作),会将每一行有NaN 一行删除,同时默认是对原对象副本操作,不会对原对象产生影响,也可以通过inplace 指示是否直接在原对象上操作...fillna() fillna 方法可以将df nan 按需求填充成某 # 将NaN用0填充 df.fillna(0,inplace = True) # inplace 指明原对象上直接修改...复杂 使用向前 或 向后 填充数据,依旧使用fillna 方法,所谓向前 是指 取出现NaN前一列或前一行数据来填充NaN,向后同理 # df e 这一列上操作,默认下行操作,向前填充数据...interpolate() 利用函数interpolate()对列向数据进行填。实现填充数据,那么要求这列上必须得有一些数据才可以,至少2个,会对起点和终点间NaN进行

17910

利用 Pandas transform 和 apply 来处理组级别的丢失数据

虽然 fillna 最简单情况下工作得很好,但只要数据组或数据顺序变得相关,它就会出现问题。本文将讨论解决这些更复杂情况技术。...不幸是,收集数据过程,有些数据丢失了。...年龄、性别分组体重 KDE 用各组平均值代替缺失 当顺序相关时,处理丢失数据 ?...对一些国家来说,你缺失了最初几年、最后几年或者中间几年数据。当然,你可以忽略它们。不过,为了可视化,你可能想要填充这些数据。 :看时间序列数据,你会发现排序变得非常相关。...fill_missing 函数末尾和开头进行和外推,结果是: ?

1.8K10

pandas技巧4

,:] # 返回第一行 df.iloc[0,0] # 返回第一列第一个元素 df.loc[0,:] # 返回第一行(索引为默认数字时,用法同df.iloc),但需要注意是loc是索引,iloc参数只接受数字参数...)] # 选取col_name1等于value1,并且col_name2value_list数据 df.loc[df[‘col_name’] !...(col) # 返回一个列col进行分组Groupby对象 df.groupby([col1,col2]) # 返回一个多列进行分组Groupby对象 df.groupby(col1)[col2...=[col2,col3], aggfunc={col2:max,col3:[ma,min]}) # 创建一个列col1进行分组,计算col2最大和col3最大、最小数据透视表 df.groupby...) # 对DataFrame每一列应用函数np.mean data.apply(np.max,axis=1) # 对DataFrame一行应用函数np.max df.groupby(col1)

3.4K20

UCB Data100:数据科学原理和技巧:第一章到第五章

您可以pandas文档查看它们。 4.2.3 组进行过滤 GroupBy 对象另一个常见用途是组过滤数据。...我们将: 对数据框进行排序,使%降序排列 Party分组并选择每个子数据框一行 虽然这可能看起来不直观,但%降序对elections进行排序非常有帮助。...然后,如果我们Party分组,每个 groupby 对象一行将包含有关具有最高选民%Candidate信息。...我们讨论连接时,我们提到了使用“键”来确定应该从每个表合并哪些行想法。让我们花点时间更仔细地研究这个想法。 主键是表唯一确定其余列列或列集。它可以被认为是表一行唯一标识符。...8 总结 我们本讲座涵盖了很多内容;让我们总结一下最重要要点: 8.1 处理缺失 我们可以采取几种方法来处理缺失数据: 删除缺失记录 保留NaN缺失 使用列进行补 8.2

45620

(数据科学学习手札06)Python在数据框操作上总结(初级篇)

数据框(Dataframe)作为一种十分标准数据结构,是数据分析中最常用数据结构,Python和R各有对数据框不同定义和操作。...细心你会发现虽然我们成功得到了一个数据框随即全排列,但是每一行行index却依然和打乱前对应行保持一致,如果我们利用行标号进行遍历循环,那么实际得到每行和打乱之前没什么区别,因此下面引入一个新方法...7.数据框条件筛选 日常数据分析工作,经常会遇到要抽取具有某些限定条件样本来进行分析,SQL我们可以使用Select语句来选择,而在pandas,也有几种相类似的方法: 方法1: A =...12.缺失处理 常用处理数据框缺失方法如下: df.dropna():删去含有缺失df.fillna():以自定义方式填充数据框缺失位置,参数value控制往空缺位置填充,...method控制方式,默认为'ffill',即用上面最近非缺省来填充下面的缺失位置 df.isnull():生成与原数据框形状相同数据框,数据框中元素为判断每一个位置是否为缺失返回bool

14.2K51

Pandas速查手册中文版

(1)官网: Python Data Analysis Library (2)十分钟入门Pandas: 10 Minutes to pandas 第一次学习Pandas过程,你会发现你需要记忆很多函数和方法...']:索引选取数据 df.iloc[0,:]:返回第一行 df.iloc[0,0]:返回第一列第一个元素 数据清理 df.columns = ['a','b','c']:重命名列名 pd.isnull...,后col2降序排列数据 df.groupby(col):返回一个列col进行分组Groupby对象 df.groupby([col1,col2]):返回一个多列进行分组Groupby对象 df.groupby...col1进行分组,并计算col2和col3最大数据透视表 df.groupby(col1).agg(np.mean):返回列col1分组所有列均值 data.apply(np.mean):对...DataFrame每一列应用函数np.mean data.apply(np.max,axis=1):对DataFrame一行应用函数np.max 数据合并 df1.append(df2):将df2

12.1K92

pandas 时序统计高级用法!

Timestamp或str类型,当为str时: epoch:1970-01-01 start:时间序列第一个 start_day:时间序列第一天午夜 end:时间序列最后一个 end_day:...groupby和窗口聚合方法, 重采样也适用相关方法,参考pandas分组8个常用技巧!...以上可以看到,上采样过程由于频率更高导致采样后数据部分缺失。这时候可以使用上采样填充方法,方法如下: 1)ffill 只有一个参数limit控制向前填充数量。...具体方法可通过参数method设置,不详细介绍,这里以linear线性方法举例。...通过pipe链式可以像管道一样顺序依次执行操作,并且只需要一行代码即可,极大地提高了可读性。 以下对下采样后C_0和C_1变量进行累加求和操作,然后再对两个求和作差。

33440

14个pandas神操作,手把手教你写代码

、处理缺失、填充默认、补全格式、处理极端等; 建立高效索引; 支持大体量数据; 一定业务逻辑插入计算后列、删除列; 灵活方便数据查询、筛选; 分组聚合数据,可独立指定分组后各字段计算方式...表1 team.xlsx部分内容 ? 这是一个学生各季度成绩总表(节选),各列说明如下。 name:学生姓名,这列没有重复,一个学生一行,即一条数据,共100条。...# 如果是CSV,使用pd.read_csv(),还支持很多类型数据读取 这样就把数据读取到变量df,输入df看一下内容,Jupyter Notebook执行效果如图2所示。...: df.groupby('team').sum() # 团队分组对应列相加 df.groupby('team').mean() # 团队分组对应列求平均 # 不同列不同计算方法 df.groupby...df.mean() # 返回所有列均值 df.mean(1) # 返回所有行均值,下同 df.corr() # 返回列与列之间相关系数 df.count() # 返回每一列非空个数

3.3K20

妈妈再也不用担心我忘记pandas操作了

df.iloc[0] # 位置选取数据 df.loc['index_one'] # 索引选取数据 df.iloc[0,:] # 返回第一行 df.iloc[0,0] # 返回第一列第一个元素 数据统计...: df.describe() # 查看数据汇总统计 df.mean() # 返回所有列均值 df.corr() # 返回列与列之间相关系数 df.count() # 返回每一列非空个数...=[True,False]) # 先按列col1升序排列,后col2降序排列数据 df.groupby(col) # 返回一个列col进行分组Groupby对象 df.groupby([col1,...col2]) # 返回一个多列进行分组Groupby对象 df.groupby(col1)[col2] # 返回列col1进行分组后,列col2均值 df.pivot_table(index=col1..., values=[col2,col3], aggfunc=max) # 创建一个列col1进行分组,并计算col2和col3最大数据透视表 df.groupby(col1).agg(np.mean

2.2K31

Python替代Excel Vba系列(二):pandas分组统计与操作Excel

今天,我就沿用上一节数据,把需求升级一下,以解决上述疑点。...不过这次我们需要把每个班级成绩好同学给揪出来好好表扬,因此条件如下: 找出每个班级top 3 学生,原数据表以绿色底色标记 找出每个班级中低于班级平均分学生,原数据表以红色底色标记 上述条件均以...排名 首先需要解决是怎么得到班级 top 3? 首要任务是得到排名,如下: 这里需要在数据中新增一列[排名] df.groupby('班级') 就是 班级 分组意思。...找出低水平学生 现在找出低于所在班级平均分同学吧。 先按班级计算平均分,然后把平均分填到每一行上。 df.groupby('班级')['总分'] 就不用说了,与上面的排名是一样意思。...给表格加点颜色 首先定义一个设置颜色方法 indices=(n for n in arg_df.index) , 获得结果索引

1.6K30

pandas每天一题-探索分析:找出最受欢迎二次点餐菜式

前面我们一直讲解 pandas 数据处理各种知识点,现在开始就应用上这些知识点来探索一下点餐数据。 本系列计划每天更新一期,希望各位小伙伴先自行思考,再查看答案。...一个订单会包含很多明细项,表每个样本(每一行)表示一个明细项 order_id 列存在重复 item_name 是品类名称,例如"罐装饮料" quantity 是明细项数量 item_price 是该明细项总价钱...说不定能搞一个"二次点餐优惠包",能进一步提升销量 下面是答案了 ---- 理解数据 同一个订单,重复出现品类,被视为二次点餐。...('counts') .query('counts>1') ) 注意此时结果表只有一列(counts),item_name 是行索引 此时数据一行表达是,某品类某订单中出现二次点餐。...使用我小工具: 利用上一节知识,做一个简单条形图: ( df.groupby('order_id')['item_name'].value_counts() .to_frame(

31320

首次公开,用了三年 pandas 速查表!

# 返回每一列非空个数 df.max() # 返回每一列最大 df.min() # 返回每一列最小 df.median() # 返回每一列中位数 df.std() # 返回每一列标准差...) data.apply(np.mean) # 对 DataFrame 每一列应用函数 np.mean data.apply(np.max,axis=1) # 对 DataFrame 一行应用函数...']] # 条件查询,只显示name 列 s.iloc[0] # 位置选取数据 s.loc['index_one'] # 索引选取数据 df.loc[0,'A':'B'] # A到 B 字段一行...col2]) # 返回一个多列进行分组Groupby对象 df.groupby(col1)[col2] # 返回列col1进行分组后,列col2均值 # 创建一个列col1进行分组,并计算col2...Sub-Slide:副页面,通过上下方向键进行切换。全屏 Fragment:一开始是隐藏空格键或方向键后显示,实现动态效果。一个页面 Skip:幻灯片中不显示单元。

7.4K10

Pandas

更改名称 pd一个df一般会有两个位置有名称,一个是轴名称(axis_name),一个是行或列名称,两个名称可以创建df时进行声明,也可以调用方法进行修改: df.rename_axis(str...#拉格朗日方法 from scipy.interpolate import lagrange #自定义列向量函数,s为列向量,n为被位置,k为取前后数据个数, 默认5 def ployinterp_columns...,分别返回各个类别的记录数量,即频次,并根据 sort 决定是否频次排序。...窗口函数 实际应用过程,我们可能会存在对整个 df 局部数据进行统计分析场景,这时就需要用到所谓“窗口函数”,可以理解为整体数据集上创建窗口来进行运算,pd 中提供几种窗口函数有: rolling...(移动函数) expanding(扩展函数) ewm(指数加权函数) 在数据分析过程,使用窗口函数能够提升数据准确性,并且使数据曲线变化趋势更加平滑,从而让数据分析变得更加准确、可靠。

9.1K30

python数据分析——数据分类汇总与统计

1.1列分组 列分组分为以下三种模式: 第一种: df.groupby(col),返回一个列进行分组groupby对象; 第二种: df.groupby([col1,col2]),返回一个多列进行分组...groupby对象; 第三种: df.groupby(col1)[col2]或者 df[col2].groupby(col1),两者含义相同,返回列col1进行分组后col2; 首先生成一个表格型数据集...gg = df.groupby(df['key1']) gg 【例1】采用函数df.groupby(col),返回一个列进行分组groupby对象。...关键技术: df.groupby(col1)[col2]或者df[col2].groupby(col1),两者含义相同,返回列col1进行分组后,col2。...,'mean']} df.groupby('Country').agg(df_age) 我们对数据进行聚合过程,除了使用sum()、max ()等系统自带聚合函数之外,大家也可以使用自己定义函数

12910
领券