首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据科学系列:pandas入门详细教程

字符串进行通函数操作,而且自带正则表达式大部分接口 丰富时间序列向量化处理接口 常用数据分析与统计功能,包括基本统计量、分组统计分析等 集成matplotlib常用可视化接口,无论是series...例如,当标签类型(可通过df.index.dtype查看)为时间类型时,若使用无法隐式转换为时间字符串作为索引切片,则引发报错 ? 切片形式返回查询,且为范围查询 ?...isin/notin,条件范围查询,即根据特定是否存在于指定列表返回相应结果 where,仍然是执行条件查询,但会返回全部结果,只是将不满足匹配条件结果赋值为NaN或其他指定,可用于筛选或屏蔽...,可通过axis参数设置是按删除还是按删除 替换,replace,非常强大功能,series或dataframe每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...;sort_values是按排序,如果是dataframe对象,也可通过axis参数设置排序方向是还是,同时根据by参数传入指定或者,可传入多行或多分别设置升序降序参数,非常灵活。

13.8K20

我用Python展示Excel中常用20个操

PandasPandas可以结合NumPy生成由指定随机(均匀分布、正态分布等)生成矩阵,例如同样生成10*20—1均匀分布随机矩阵为,使用代码即可:pd.DataFrame(np.random.rand...数据插入 说明:在指定位置插入指定数据 Excel 在Excel我们可以将光标放在指定位置右键增加一/,当然也可以在添加时对数据进行一些计算,比如我们就可以使用IF函数(=IF(G2>10000...PandasPandas可以使用.split来完成分列,但是在分列完毕后需要使用merge来将分列完数据添加至原DataFrame,对于分列完数据含有[]字符,我们可以使用正则或者字符串lstrip...数据分组 说明:对数据进行分组计算 Excel 在Excel对数据进行分组计算需要先需要分组字段进行排序,之后可以通过点击分类汇总设置相关参数完成,比如对示例数据学历进行分组求不同学历平均薪资...PandasPandas对数据进行分组计算可以使用groupby轻松搞定,比如使用df.groupby("学历").mean()一代码即可对示例数据学历进行分组求不同学历平均薪资,结果与Excel

5.5K10
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas库常用方法、函数集合

Pandas是Python数据分析处理核心第三方库,它使用二维数组形式,类似Excel表格,封装了很多实用函数方法,让你可以轻松地对数据集进行各种操作。...:每个分组应用自定义聚合函数 transform:每个分组应用转换函数,返回与原始数据形状相同结果 rank:计算元素在每个分组排名 filter:根据分组某些属性筛选数据 sum:计算分组总和...计算分组累积和、最小、最大、累积乘积 数据清洗 dropna: 丢弃包含缺失 fillna: 填充或替换缺失 interpolate: 缺失进行 duplicated: 标记重复...drop_duplicates: 删除重复 str.strip: 去除字符串两端空白字符 str.lower和 str.upper: 将字符串转换为小写或大写 str.replace: 替换字符串特定字符...astype: 将一数据类型转换为指定类型 sort_values: 对数据框按照指定进行排序 rename: 或行进行重命名 drop: 删除指定 数据可视化 pandas.DataFrame.plot.area

25110

pandas分组聚合转换

无法特定使用特定聚合函数 无法使用自定义聚合函数 无法直接结果列名在聚合前进行自定义命名 可以通过agg函数解决这些问题: 当使用多个聚合函数时,需要用列表形式把内置聚合函数对应字符串传入...,其中字典以列名为键,以聚合字符串字符串列表为 gb.agg({'Height':['mean','max'], 'Weight':'count'}) 使用自定义函数  在agg可以使用具体自定义函数...,需要注意传入函数参数是之前数据源,逐进行计算需要注意传入函数参数是之前数据源,逐进行计算。...分组之后, 如果走聚合, 每一组会对应一条记录, 当分组之后, 后续处理不要影响数据条目, 把聚合和每一条记录进行计算, 这时就可以使用分组转换(类似SQL窗口函数) def my_zscore...mean(聚合进行计算与原来一样: 可以看出条目没有发生变化:  身高和体重进行分组标准化,即减去组均值后除以组标准差: gb.transform(lambda x: (x-x.mean

8710

不再纠结,一文详解pandasmap、apply、applymap、groupby、agg...

) print(data.shape) 2.1 map() 类似Python内建map()方法,pandasmap()方法将函数、字典索引或是一些需要接受单个输入特别的对象与对应单个每一个元素建立联系串行得到结果...三、聚合类方法 有些时候我们需要像SQL里聚合操作那样将原始数据按照某个或某些离散型进行分组再求和、平均等聚合之后,在pandas分组运算是一件非常优雅事。...3.1 利用groupby()进行分组进行分组运算第一步当然就是分组,在pandas对数据框进行分组使用到groupby()方法。...其主要使用参数为by,这个参数用于传入分组依据变量名称,当变量为1个时传入名称字符串即可。...其传入参数为字典,键为变量名,为对应聚合函数字符串,譬如{'v1':['sum','mean'], 'v2':['median','max','min]}就代表对数据框v1进行求和、均值操作

4K30

不再纠结,一文详解pandasmap、apply、applymap、groupby、agg...

2.1 map() 类似Python内建map()方法,pandasmap()方法将函数、字典索引或是一些需要接受单个输入特别的对象与对应单个每一个元素建立联系串行得到结果。...三、聚合类方法 有些时候我们需要像SQL里聚合操作那样将原始数据按照某个或某些离散型进行分组再求和、平均等聚合之后,在pandas分组运算是一件非常优雅事。...3.1 利用groupby()进行分组进行分组运算第一步当然就是分组,在pandas对数据框进行分组使用到groupby()方法。...其主要使用参数为by,这个参数用于传入分组依据变量名称,当变量为1个时传入名称字符串即可。...其传入参数为字典,键为变量名,为对应聚合函数字符串,譬如{'v1':['sum','mean'], 'v2':['median','max','min]}就代表对数据框v1进行求和、均值操作

4.9K10

python数据分析——数据分类汇总与统计

例如, DataFrame可以在其(axis=0)或(axis=1)上进行分组。然后,将一个函数应用(apply)到各个分组产生一个新。...关键技术:对于由DataFrame产生GroupBy对象,如果用一个(单个字符串)或一组(字符串数组)列名进行索引,就能实现选取部分列进行聚合目的。...使用函数分组 比起使用字典或Series,使用Python函数是一种更原生方法定义分组映射。 【例6】以上一小节DataFrame为例,使用len函数计算一个字符串长度,并用其进行分组。...首先,编写一个选取指定具有最大函数: 现在,如果smoker分组并用该函数调用apply,就会得到: top函数在DataFrame各个片段调用,然后结果pandas.concat...: 名称 margins : 总计/ normalize:将所有除以总和进行归一化,为True时候显示百分比 dropna :是否刪除缺失 【例19】根据国籍和用手习惯这段数据进行统计汇总

14810

Python数学建模算法与应用 - 常用Python命令及程序注解

遍历字符串y每个字符使用d.get(ch, 0)获取字符ch在字典d,如果字符不存在,则返回默认0。 将字符ch作为键,将其对应加1,更新字典d。...使用collections.Counter()函数字符串y进行计数,生成一个字典count,其中键是字符字符字符串中出现次数。...s1 = d.groupby('A').mean() 这行代码根据 'A' DataFrame d 进行分组计算每个分组均值。...s2 = d.groupby('A').apply(sum) 这行代码根据 'A' DataFrame d 进行分组每个分组应用 sum 函数进行求和。...groupby 是 pandas 一个函数,用于根据一个或多个 DataFrame 进行分组操作。它可以用于数据聚合、统计和分析。

1.3K30

妈妈再也不用担心我忘记pandas操作了

pd.read_html(url) # 解析URL、字符串或者HTML文件,抽取其中tables表格 pd.read_clipboard() # 从你粘贴板获取内容,传给read_table()...) # 查看Series对象唯一和计数 df.apply(pd.Series.value_counts) # 查看DataFrame对象每一唯一和计数 数据选取: df[col] # 根据列名...(col) # 返回一个按col进行分组Groupby对象 df.groupby([col1,col2]) # 返回一个按多进行分组Groupby对象 df.groupby(col1)[col2...,计算col2和col3最大数据透视表 df.groupby(col1).agg(np.mean) # 返回按col1分组所有均值 data.apply(np.mean) # DataFrame...每一应用函数np.mean data.apply(np.max,axis=1) # DataFrame每一应用函数np.max 其它操作: 改列名: 方法1 a.columns = ['a

2.2K31

(数据科学学习手札69)详解pandasmap、apply、applymap、groupby、agg

2.1 map()   类似Python内建map()方法,pandasmap()方法将函数、字典索引或是一些需要接受单个输入特别的对象与对应单个每一个元素建立联系串行得到结果,譬如这里我们想要得到...()之前添加tqdm.tqdm.pandas(desc='')来启动apply过程监视,其中desc参数传入进度进行说明字符串,下面我们在上一小部分示例基础上进行改造来添加进度条功能: from...三、聚合类方法   有些时候我们需要像SQL里聚合操作那样将原始数据按照某个或某些离散型进行分组再求和、平均等聚合之后,在pandas分组运算是一件非常优雅事。...3.1 利用groupby()进行分组   要进行分组运算第一步当然就是分组,在pandas对数据框进行分组使用到groupby()方法,其主要使用参数为by,这个参数用于传入分组依据变量名称,...,键为变量名,为对应聚合函数字符串,譬如{'v1':['sum','mean'], 'v2':['median','max','min]}就代表对数据框v1进行求和、均值操作,v2进行中位数

4.9K60

如何用 Python 执行常见 Excel 和 SQL 任务

使用代码,我们已经将这些数据分配保存到 Pandas dataframe - 事实证明是这种情况,字典是要转换为 dataframe 完美数据格式。 ?...现在,可以对我们以前不能做的人均 GDP 进行各种计算,包括通过不同过滤确定百分位数值。 选择/过滤数据 任何数据分析师基本需求是将大型数据集分割成有价值结果。...我们一直在研究 GDP 数据集进行一系列简单计算。例如,计算人均国民生产总值超过 5 万总和。 ? ? 这将给你答案为 770046 。...使用相同逻辑,我们可以计算各种 -- 完整列表位于左侧菜单栏下计算/描述性统计部分 Pandas 文档。...现在我们有一个连接表,我们希望将国家和人均 GDP 按其所在地区进行分组。 我们现在可以使用 Pandas group 方法排列按区域分组数据。 ? ?

10.7K60

懂Excel轻松入门Python数据分析包pandas(十九):文本条件统计

今天我们来看看在 pandas 如何做到条件统计。...xxxifs 类函数即可 在 pandas ,不会有啥条件统计函数,因为这就是先筛选,再统计: - 2:得到 性别 是女性 bool - 3:df[cond] 就是女性记录,简单通过...实际上我们可以直接 性别 分组统计即可: - 不多说了,代码语义简直与中文一样 - 这里唯一不好地方是,需要通过 size 方法获得每个分组记录 需求2:不同统计方法 刚刚是求人数,...,那么此需求即可迎刃而解: - 2:由于 住址 字符串使用 .str 可访问字符串类型各种方法 - contains 判断是否包含指定内容。...- 2:使用 endswith 方法即可完成 怎么与 Excel 统计结果不一样!!

1.3K10

用Python执行SQL、Excel常见任务?10个方法全搞定!

使用代码,我们已经将这些数据分配保存到 Pandas dataframe —— 事实证明是这种情况,字典是要转换为 dataframe 完美数据格式。 ?...你可以复制一组由公式呈现单元格,并将其粘贴为,你可以使用格式选项快速切换数字,日期和字符串。 有时候,在 Python 中切换一种数据类型为其他数据类型并不容易,但当然有可能。...现在,可以对我们以前不能做的人均 GDP 进行各种计算,包括通过不同过滤确定百分位数值。 07 选择/过滤数据 任何数据分析师基本需求是将大型数据集分割成有价值结果。...我们一直在研究 GDP 数据集进行一系列简单计算。例如,计算人均国民生产总值超过 5 万总和。 ? ? 这将给你答案为 770046 。...使用相同逻辑,我们可以计算各种 — 完整列表位于左侧菜单栏下计算/描述性统计部分 Pandas 文档。

8.2K20

精心整理 | 非常全面的Pandas入门教程

作者:石头 | 来源:机器学习那些事 pandas是基于NumPy一种数据分析工具,在机器学习任务,我们首先需要对数据进行清洗和编辑等工作,pandas库大大简化了我们工作量,熟练掌握pandas...dtype: object 18.如何计算series每个元素字符串长度 ser = pd.Series(['how', 'to', 'kick', 'ass?'])...如何series进行算术运算操作 # 如何series之间进行算法运算 import pandas as pd series1 = pd.Series([3,4,4,4],['index1','index2...,pandas根据索引对数据进行运算,若series之间有不同索引,对应就为Nan。...如何从series查找异常值赋值 ser = pd.Series(np.logspace(-2, 2, 30)) # 小于low_per分位赋值为low,大于low_per分位赋值为high

9.9K53

懂Excel轻松入门Python数据分析包pandas(十九):文本条件统计

今天我们来看看在 pandas 如何做到条件统计。...xxxifs 类函数即可 在 pandas ,不会有啥条件统计函数,因为这就是先筛选,再统计: - 2:得到 性别 是女性 bool - 3:df[cond] 就是女性记录,简单通过...实际上我们可以直接 性别 分组统计即可: - 不多说了,代码语义简直与中文一样 - 这里唯一不好地方是,需要通过 size 方法获得每个分组记录 需求2:不同统计方法 刚刚是求人数,...,那么此需求即可迎刃而解: - 2:由于 住址 字符串使用 .str 可访问字符串类型各种方法 - contains 判断是否包含指定内容。...- 2:使用 endswith 方法即可完成 怎么与 Excel 统计结果不一样!!

1.1K20

《利用Python进行数据分析·第2版》第10章 数据聚合与分组运算10.1 GroupBy机制10.2 数据聚合10.3 apply:一般性“拆分-应用-合并”10.4 透视表和交叉表10.5 总

对数据集进行分组各组应用一个函数(无论是聚合还是转换),通常是数据分析工作重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。...这里最重要是,数据(Series)根据分组进行了聚合,产生了一个新Series,其索引为key1唯一。...对于由DataFrame产生GroupBy对象,如果用一个(单个字符串)或一组(字符串数组)列名进行索引,就能实现选取部分列进行聚合目的。...首先,我根据天和smokertips进行分组: In [60]: grouped = tips.groupby(['day', 'smoker']) 注意,对于表10-1那些描述统计,可以将函数名以字符串形式传入...它根据一个或多个键对数据进行聚合,根据和列上分组键将数据分配到各个矩形区域中。

4.9K90

Pandas速查手册中文版

pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中tables表格 pd.read_clipboard():从你粘贴板获取内容,传给read_table() pd.DataFrame...Series对象唯一和计数 df.apply(pd.Series.value_counts):查看DataFrame对象每一唯一和计数 数据选取 df[col]:根据列名,并以Series形式返回...pd.notnull():检查DataFrame对象非空返回一个Boolean数组 df.dropna():删除所有包含空 df.dropna(axis=1):删除所有包含空 df.dropna...=col1, values=[col2,col3], aggfunc=max):创建一个按col1进行分组计算col2和col3最大数据透视表 df.groupby(col1).agg(np.mean...):返回按col1分组所有均值 data.apply(np.mean):DataFrame每一应用函数np.mean data.apply(np.max,axis=1):DataFrame

12.1K92

30 个小例子帮你快速掌握Pandas

让我们从一个简单开始。下面的代码将根据地理位置和性别的组合进行分组,然后为我们提供每组平均流失率。...method参数指定如何处理具有相同。first表示根据它们在数组(即顺序进行排名。 21.唯一数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。...您可能需要更改其他一些选项是: max_colwidth:显示最大字符 max_columns:要显示最大 max_rows:要显示最大行数 28.计算百分比变化 pct_change...29.根据字符串过滤 我们可能需要根据文本数据(例如客户名称)过滤观察结果)。我已经将虚构名称添加到df_new DataFrame。 ? 让我们选择客户名称以Mi开头。...endswith函数根据字符串末尾字符进行相同过滤。 Pandas可以对字符串进行很多操作。

10.6K10
领券