首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

30 个小例子帮你快速掌握Pandas

8.删除缺失 处理缺失另一种方法是删除它们。“已退出”仍缺少。以下代码将删除缺少任何行。...第一个参数是位置索引,第二个参数是名称,第三个参数是。 19.where函数 它用于根据条件替换行或。默认替换是NaN,但我们也可以指定要替换。...method参数指定如何处理具有相同行。first表示根据它们在数组(即顺序对其进行排名。 21.唯一数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。...24.替换 替换函数可用于替换DataFrame。 ? 第一个参数是要替换,第二个参数是新。 我们可以使用字典进行多次替换。 ?...df_new.round(1)#所需小数位数 ? 27.更改显示选项 无需每次都手动调整显示选项,我们可以更改各种参数默认显示选项。

10.7K10
您找到你想要的搜索结果了吗?
是的
没有找到

Excel公式技巧93:查找某行第一个非零所在标题

有时候,一行数据前面的数据都是0,从某开始就是大于0数值,我们需要知道首先出现大于0数值所在单元格。...例如下图1所示,每行数据中非零出现位置不同,我们想知道非零出现单元格对应标题,即第3行数据。 ?...图2 在公式, MATCH(TRUE,B4:M40,0) 通过B4:M4与0比较,得到一个TRUE/FALSE数组,其中第一个出现TRUE就是对应非零,MATCH函数返回其相对应位置...MATCH函数查找结果再加上1,是因为我们查找单元格区域不是从A开始,而是从B开始。...ADDRESS函数第一个参数值3代表标题行第3行,将3和MATCH函数返回结果传递给ADDRESS函数返回非零对应标题行所在单元格地址。

8.1K30

机器学习处理缺失9种方法

例如,在数据集身高和年龄,会有更多年龄缺失,因为女孩通常隐藏他们年龄相同的如果我们准备工资数据和经验,我们将有更多薪水中遗漏因为大多数男人不喜欢分享他们薪水。...Age包含所有整数值,而Cabin包含所有分类。 1、均值、中值、众数替换 在这种技术,我们将null替换为中所有均值/中值或众数。...中值(median):所有中心 def impute_nan(df,column,median): df[column+'_mean']=df[column].fillna(median...然后更改索引,并将其替换为与NaN相同索引,最后将所有NaN替换为一个随机样本。...这是一个5步过程。 创建列表(整数、浮点) 输入估算,确定邻居。 根据数据拟合估算。 转换数据 使用转换后数据创建一个新数据框架。

2K40

机器学习处理缺失7种方法

---- 用平均值/中位数估算缺失: 数据集中具有连续数值可以替换为剩余值平均值、中值或众数。与以前方法相比,这种方法可以防止数据丢失。...替换上述两个近似(平均值、中值)是一种处理缺失统计方法。 ? 在上例,缺失用平均值代替,同样,也可以用中值代替。...在编码时向模型添加新特征,这可能会导致性能较差 ---- 其他插补方法: 根据数据或数据类型性质,某些其他插补方法可能更适合于对缺失进行插补。...Python朴素贝叶斯和k近邻sklearn实现不支持缺失。 这里可以使用另一个算法是RandomForest,它对非线性和分类数据很有效。...回归或分类模型可用于根据具有缺失特征性质(分类或连续)来预测缺失

7.1K20

20个能够有效提高 Pandas数据分析效率常用函数,附带解释和例子

如果axis参数设置为1,nunique将返回每行唯一数目。 13. Lookup 'lookup'可以用于根据行、标签在dataframe查找指定。假设我们有以下数据: ?...Describe describe函数计算数字基本统计信息,这些包括计数、平均值、标准偏差、最小和最大中值第一个和第三个四分位数。因此,它提供了dataframe统计摘要。 ?...Merge Merge()根据共同组合dataframe。考虑以下两个数据: ? 我们可以基于共同合并它们。设置合并条件参数是“on”参数。 ?...df1和df2是基于column_a共同进行合并,merge函数how参数允许以不同方式组合dataframe,如:“inner”、“outer”、“left”、“right”等。...Replace 顾名思义,它允许替换dataframe第一个参数是要替换,第二个参数是新df.replace('A', 'A_1') ? 我们也可以在同一个字典多次替换。

5.6K30

Pandas 2.2 中文官方教程和指南(二十·二)

聚合结果是每在组一个标量值,或者至少被视为这样。例如,产生总和。...() 计算每个组位数 min() 计算每个组最小 nunique() 计算每个组唯一数量 prod() 计算每个组中值乘积 quantile() 计算每个组中值给定分位数 sem()...计算每个组中值平均标准误差 size() 计算每个组数量 skew() * 计算每个组中值偏度 std() 计算每个组中值标准偏差 sum() 计算每个组中值总和 var() 计算每个组中值方差...() 计算每个组位数 min() 计算每个组最小 nunique() 计算每个组唯一数量 prod() 计算每个组中值乘积 quantile() 计算每个组中值给定分位数 sem()...在这种情况下,假设我们怀疑第一在“B”组中平均高出 3 倍。

34500

Pandas速查手册中文版

数据选取 df[col]:根据列名,并以Series形式返回 df[[col1, col2]]:以DataFrame形式返回多 s.iloc[0]:按位置选取数据 s.loc['index_one...']:按索引选取数据 df.iloc[0,:]:返回第一df.iloc[0,0]:返回第一第一个元素 数据清理 df.columns = ['a','b','c']:重命名列名 pd.isnull...s.astype(float):将Series数据类型更改为float类型 s.replace(1,'one'):用‘one’代替所有等于1 s.replace([1,3],['one','three...执行SQL形式join 数据统计 df.describe():查看数据汇总统计 df.mean():返回所有均值 df.corr():返回之间相关系数 df.count():返回每一非空个数...df.max():返回每一最大 df.min():返回每一最小 df.median():返回每一位数 df.std():返回每一标准差

12.1K92

python数据分析——数据选择和运算

(data) data[1:5:2,1:5:2] 【例】请使用Python对如下二维数组进行提取,选择第一行第二数据元素并输出。...关键技术:多维数组对行选择,使用[ ]运算符只对行号选择即可,具体程序代码如下所示: 花式索引与布尔索引 ①布尔索引 我们可以通过一个布尔数组来索引目标数组,以此找出与布尔数组中值为True...请注意,索引会完全更改,键也会被覆盖。 【例】按合并对象。 关键技术:如果需要沿axis=1合并两个对象,则会追加新列到原对象右侧。...: 四、数据运算 pandas具有大量数据计算函数,比如求计数、求和、求平均值、求最大、最小、中位数、众数、方差、标准差等。...关键技术: mean()函数能够对对数据元素求算术平均值并返回,程序代码如下所示: 中位数运算 中位数又叫作中值,按顺序排列一组数据位于中间位置数,其不受异常值影响。

13710

利用python回顾统计学基础概念(全)

-1,表示系统 # 会根据我指定数,自动去计算出行数。...如果数据个数为偶数,则取中间两个数值均值。 众数:一组数据中出现次数对多。 2)均值、中位数、众数三者区别 ”数值变量”通常使用均值与中值表示集中趋势。...以四分位数为例,通过3个分位数,将数据划分为4个区间。(十分位数含义相同) 第一个分位数成为1/4分位数(下四分位数),数据中有1/4数据小于该分位数。...2)怎么求分位数   给定一组数据(存放在数组),我们要如何计算其四分位呢?首先要明确一点,四分位未必一定等同于数组某个元素。   ...在Python,四分位计算方式如下:   ① 首先计算四分位位置。   其中,位置index从1开始,n为数组中元素个数。   ② 根据位置计算四分位

1.1K11

这3个Seaborn函数可以搞定90%可视化任务

hue参数根据给定不同分隔行。我们已经将性别列传递给了hue参数,因此我们可以分别看到女性和男性分布。 多个参数决定了不同类别的栏如何显示(“dodge”表示并排显示)。...kde图创建了给定变量(即)核密度估计,因此我们得到概率分布估计。我们可以通过将kind参数设置为“kde”来创建kde图。...“width”参数调整框宽度。 以下是箱形图结构: ? 中位数是所有点都排序后中间点。Q1(第一或下四分位数)是下半部分位数,Q3(第三或上四分位数)是上半部分位数。...catplot功能下另一种类型是小提琴图。这是一种plto和kde组合。因此,它提供了一个变量分布概述。 例如,我们可以为前面示例strip plot所使用创建小提琴图。...这些函数提供了一个标准语法,这使得掌握它们非常容易。在大多数情况下,我们只需要更改kind参数。此外,自定义绘图参数也是相同。 在某些情况下,我们需要使用不同类型图表。

1.3K20

【Python】5种基本但功能非常强大可视化类型

我们已经使用颜色编码来根据“cat”分离数据点。mark_circle函数size参数用于调整散点图中点大小。 3.直方图 直方图用于显示连续变量分布。...它将取值范围划分为离散数据元,并统计每个数据元数据点个数。 让我们创建“val3”直方图。...4.箱线图 箱线图提供了变量分布概述。它显示了是如何通过四分位数和离群展开。 我们可以使用Altairmark_boxplot函数创建一个箱线图,如下所示。...A范围小于其他两个类别。框内白线表示中值。 5.条形图 条形图可用于可视化离散变量。每个类别都用一个大小与该类别的成比例条表示。...第一行从date中提取周。第二行将“val3”按周分组并计算总和。 我们现在可以创建条形图。

2.1K20

Pandas进阶修炼120题,给你深度和广度船新体验

'].interpolate()) df 7.提取popularity中值大于3df[df['popularity'] > 3] 8.按照grammer进行去除重复 df.drop_duplicates...=True) df 87.查看df所有数据最小、25%分位数、中位数、75%分位数、最大 print(np.percentile(df, q=[0, 25, 50, 75, 100])) 88....修改列名为col1,col2,col3 df.columns = ['col1','col2','col3'] 89.提取第一不在第二出现数字 df['col1'][~df['col1']....[:3] 91.提取第一可以整除5数字位置 np.argwhere(df['col1'] % 5==0) 92.计算第一数字前一个与后一个差值 df['col1'].diff().tolist...[[1,10,15],0] 95.查找第一局部最大位置 #备注 即比它前一个与后一个数字都大数字 tem = np.diff(np.sign(np.diff(df['col1']))) np.where

6.1K31

pandas数据清洗,排序,索引设置,数据选取

=True) 更改数据格式astype() isin #计算一个“Series各是否包含传入序列布尔数组 unique #返回唯一数组...df.fillna({1:0,2:0.5}) #对第一nan赋0,第二赋值0.5 df.fillna(method='ffill') #在方向上以前一个作为赋给NaN 替换replace(...1000:0}) 重复处理duplicated(),unique(),drop_duplictad() df.duplicated()#两行每完全一样才算重复,后面重复为True,第一个和不重复为...返回唯一数组(类型为array) df.drop_duplicates(['k1'])# 保留k1唯一行,默认保留第一df.drop_duplicates(['k1','k2'],...s.isin([1,2,3]) df['A'].isin([1,2,3]) df.loc[df['A'].isin([5.8,5.1])]选取A中值为5.8,5.1所有行组成dataframe query

3.2K20

python数据处理 tips

df.head()将显示数据帧前5行,使用此函数可以快速浏览数据集。 删除未使用 根据我们样本,有一个无效/空Unnamed:13我们不需要。我们可以使用下面的函数删除它。...解决方案1:删除样本(行)/特征() 如果我们确信丢失数据是无用,或者丢失数据只是数据一小部分,那么我们可以删除包含丢失行。 在统计学,这种方法称为删除,它是一种处理缺失数据方法。...在该方法,如果缺少任何单个,则整个记录将从分析中排除。 如果我们确信这个特征()不能提供有用信息或者缺少百分比很高,我们可以删除整个。...这在进行统计分析时非常有用,因为填充缺失可能会产生意外或有偏差结果。 解决方案2:插补缺失 它意味着根据其他数据计算缺失。例如,我们可以计算年龄和出生日期缺失。...在这种情况下,让我们使用中位数来替换缺少。 ? df["Age"].median用于计算数据位数,而fillna用于中位数替换缺失

4.4K30

【Python】基于多组合删除数据框重复

最近公司在做关联图谱项目,想挖掘团伙犯罪。在准备关系数据时需要根据组合删除数据框重复,两中元素顺序可能是相反。...一种是写循环依次判断是否重复删重,另一种是用本公众号文章:Python集合提到frozenset函数,一句语句解决该问题。 循环太过繁琐,而且速度较慢。...本文介绍一句语句解决多组合删除数据框重复问题。 一、举一个小例子 在Python中有一个包含3数据框,希望根据name1和name2组合(在两行顺序不一样)消除重复项。...由于原始数据是从hive sql跑出来,表示商户号之间关系数据,merchant_r和merchant_l存在组合重复现象。现希望根据这两组合消除重复项。...经过这个函数就可以解决两行中值顺序不一致问题。因为集合是无序,只要相同不用考虑顺序。 duplicated():判断变成冻结集合是否存在重复,若存在标记为True。

14.6K30
领券