首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

30 个小例子帮你快速掌握Pandas

提供了许多选项。我们可以使用特定,聚合函数(例如均值)上一个下一个。 对于Geography,我将使用最常见。 ?...第一个参数是位置索引,第二个参数是名称,第三个参数是。 19.where函数 它用于根据条件替换。默认替换是NaN,但我们也可以指定要替换。...符合指定条件将保持不变,而其他替换为指定。 20.排名函数 它为这些分配一个等级。让我们创建一个根据客户余额对客户进行排名。...method参数指定如何处理具有相同行。first表示根据它们在数组(即顺序对其进行排名。 21.唯一数量 使用分类变量时,很方便。我们可能需要检查唯一类别的数量。...Geography内存消耗减少了近8倍。 24.替换 替换函数可用于替换DataFrame。 ? 第一个参数是要替换,第二个参数是新。 我们可以使用字典进行多次替换。 ?

10.6K10

初学者10种Python技巧

假设我们已经决定对确定植物是否为兰花感兴趣。对于单行-if,我们从测试条件为真时要输出开始。 此代码将单行(如果具有列表理解)组合以输出1(其中植物是兰花),否则输出0。...使我们能够对DataFrame执行操作,而无需创建正式函数-即带有def and return 语句函数 ,我们将在稍后介绍。...#7-将条件应用于多 假设我们要确定哪些喜欢巴赫植物也需要充足阳光,因此我们可以将它们放在温室。...函数sunny_shelf接受两个参数作为其输入-用于检查“full sun”和用于检查“ bach”。函数输出这两个条件是否都成立。...在第4行,我们 将此函数.apply()应用于DataFrame指定应将哪些列作为参数传递。 axis=1 告诉pandas应该跨评估函数(与之相对 axis=0,后者跨行评估)。

2.8K20
您找到你想要的搜索结果了吗?
是的
没有找到

python数据分析——数据预处理

dropna()方法用于删除含有缺失行。 【例】当某行都为NaN时,才删除整行整列。这种情况该如何处理? 关键技术: dropna()方法how参数。...利用duplicated()方法检测冗余,默认是判断全部是否全部重复,返回布尔类型结果。对于完全没有重复行,返回为False。...4.2处理异常值 了解异常值检测后,接下来介绍如何处理异常值。在数据分析过程,对异常值处理通常包括以下3种方法: 最常用方式是删除。 将异常值当缺失处理,以某个填充。...7.2数据修改与替换 按列增加数据 【例】请创建如下所示DataFrame数据,利用Python对该数据最后增加一数据,要求数据索引为'four' ,数值为[9,10,24]。...关键技术:该案例,使用DataFramedrop()方法,删除数据某一。 drop()方法参数说明如下: labels:表示行标签标签。

23310

最全面的Pandas教程!没有之一!

常见操作比如选取、替换数据,还能重组数据表、修改索引、多重筛选等。...此外,你还可以制定多行和/,如上所示。 条件筛选 用括号 [] 方式,除了直接指定选中某些外,还能接收一个条件语句,然后筛选出符合条件行/。...你可以用逻辑运算符 &(与)和 |()来链接多个条件语句,以便一次应用多个筛选条件到当前 DataFrame 上。举个栗子,你可以用下面的方法筛选出同时满足 'W'>0 和'X'>1 行: ?...删除: ? 类似的,如果你使用 .fillna() 方法,Pandas 将对这个 DataFrame所有的空位置填上你指定默认。比如,将表中所有 NaN 替换成 20 : ?...假如你不确定表某个列名是否含有空格之类字符,你可以通过 .columns 来获取属性,以查看具体列名。 ?

25.8K64

Python 学习小笔记

可用 对数据分组进行计算,比如计算分组平均数等 有点类似于数据库groupby计算,涉及至少两数据,用法有两种(例 要对A根据B进行分组计算平均值) 1....使用0表示沿着每一行标签\索引向下执行方法 使用1表示沿着每一行或者标签模向执行对应方法 定位符合某个条件数据(在处理缺失数据时十分有用) data.loc[行条件条件]...,只能用data.loc[条件]=xxx方法 根据条件筛选数据 data[data.Survived== 0 ].Age 筛选AgeSurvivied为0元组 下面举三个例子 >>>data[...==1] 显示所有符合data.Survived是1数据(包括其他属性) 替换数据 方法DataFrame.replace(to_replace=None, value=None, inplace...[0,1],inplace=True)表示将data里面Sex所有male替换成0,所有female替换成1 series:(假设保存数据集名为series) 画图可以用series.plot

96230

Python 全栈 191 问(附答案)

说说你知道创建字典几种方法? 字典视图是什么? 所有对象都能作为字典键吗? 集合内元素可以为任意类型吗? 什么是可哈希类型?举几个例子 求集合集、差集、交集、子集方法?...怎么找出字典最大键? 如何求出字典最大如何快速判断一个字符串中所有字符是否唯一? 给定 n 个集合,如何使用 max 函数求出包含元素最多集合?...如何计算出还有几天是女朋友生日? 如何绘制出年、月日历图? 如何使用 Python 提供函数快速判断是否为闰年? 如何获取月第一天、最后一天、月有几天?...使用 NumPy 创建一个 [3,5] 所有元素为 True 数组 数组所有奇数替换为 -1; 提取出数组中所有奇数 求 2 个 NumPy 数组交集、差集 NumPy 二维数组交换 2 ,反转行...分类中出现次数较少如何统一归为 others,该怎么做到? 某些场景需要重新排序 DataFrame ,该如何做到?

4.2K20

如何用 Python 执行常见 Excel 和 SQL 任务

我们将要重命名某些,在 Excel ,可以通过单击列名称键入新名称,在SQL,你可以执行 ALTER TABLE 语句使用 SQL Server sp_rename。...现在,可以对我们以前不能做的人均 GDP 进行各种计算,包括通过不同过滤确定百分位数值。 选择/过滤数据 任何数据分析师基本需求是将大型数据集分割成有价值结果。...使用 len 方法快速检查(一个用于计算 dataframe 行数救星!)表示我们有 25 个国家符合。 ? ? 要是我们想把这两个过滤条件连在一起呢? 这里是连接过滤方法。...在多个过滤条件之前,你想要了解工作原理。你还需要了解 Python 基本操作符。为了这个练习目的,你只需要知道「&」代表 AND,而「|」代表 Python OR。...事实上,你将要重复我们所有的计算,包括反映每个国家的人口方法!看看你是否可以在刚刚启动 Python notebook 执行此操作。

10.7K60

Python数据科学(六)- 资料清理(Ⅰ)1.Pandas1.资料筛选2.侦测遗失3.补齐遗失

, 107) # 设置新索引 df. set_index('userid', inplace=True) 根据位置取值 # iloc可以根据位置取值 df.iloc[1] # 查看1,3,5 数据...# 检查非缺失数据 df['gender'].notnull() # 检查缺失资料 df['gender'].isnull() 检查字段是否含有缺失 # 检查字段是否含有缺失 df['age...'].isnull().values.any() # 检查DataFrame 是否还有缺失 返回True/False df.isnull().values.any() 计算缺失数量 # 检查某个字段缺失数量...df['age'].isnull().sum() # 检查字段缺失数量 df.isnull().sum() # 计算所有缺失数量 df.isnull().sum().sum() 分开计算每一栏缺失数量...舍弃含有缺失 增加一包含缺失 df['employee'] = np.nan 舍弃皆为缺失 df.dropna(axis=1, how = 'all') 使用0表示沿着每一行标签

2.2K30

10个快速入门Query函数使用Pandas查询示例

在开始之前,先快速回顾一下pandas -查询函数query。查询函数用于根据指定表达式提取记录,返回一个新DataFrame。表达式是用字符串形式表示条件条件组合。...PANDAS DATAFRAME(.loc和.iloc)属性用于根据行和标签和索引提取数据集子集。因此,并不具备查询灵活性。...在多个条件过滤 一个多个条件下过滤,query()语法都保持不变 但是需要指定两个多个条件进行过滤方式 and:回在满足两个条件所有记录 or:返回满足任意条件所有记录 示例2 查询数量为95...: df.query("Quantity == 95 or UnitPrice == 182") 返回满足两个条件任意一个条件所有。...== 'Delivered'") 查询表达式包含了日期时间和文本条件返回了符合查询表达式所有记录 替换 上面的查询中都会生成一个新df。

4.3K20

10快速入门Query函数使用Pandas查询示例

在开始之前,先快速回顾一下pandas -查询函数query。查询函数用于根据指定表达式提取记录,返回一个新DataFrame。表达式是用字符串形式表示条件条件组合。...PANDAS DATAFRAME(.loc和.iloc)属性用于根据行和标签和索引提取数据集子集。因此,并不具备查询灵活性。...在多个条件过滤 一个多个条件下过滤,query()语法都保持不变 但是需要指定两个多个条件进行过滤方式 and:回在满足两个条件所有记录 or:返回满足任意条件所有记录 示例2 查询数量为95...: df.query("Quantity == 95 or UnitPrice == 182") 返回满足两个条件任意一个条件所有。...== 'Delivered'") 查询表达式包含了日期时间和文本条件返回了符合查询表达式所有记录 替换 上面的查询中都会生成一个新df。

4.4K10

用Python执行SQL、Excel常见任务?10个方法全搞定!

我们将要重命名某些,在 Excel ,可以通过单击列名称键入新名称,在SQL,你可以执行 ALTER TABLE 语句使用 SQL Server sp_rename。...现在,可以对我们以前不能做的人均 GDP 进行各种计算,包括通过不同过滤确定百分位数值。 07 选择/过滤数据 任何数据分析师基本需求是将大型数据集分割成有价值结果。...使用 len 方法快速检查(一个用于计算 dataframe 行数救星!)表示我们有 25 个国家符合。 ? 要是我们想把这两个过滤条件连在一起呢? 这里是连接过滤方法。...在多个过滤条件之前,你想要了解工作原理。你还需要了解 Python 基本操作符。为了这个练习目的,你只需要知道「&」代表 AND,而「|」代表 Python OR。...事实上,你将要重复我们所有的计算,包括反映每个国家的人口方法!看看你是否可以在刚刚启动 Python notebook 执行此操作。

8.2K20

快速介绍Python数据分析库pandas基础知识和代码示例

DataFrame,有时许多数据集只是带着缺失数据,或者因为存在而没有被收集,或者它从未存在过。...NaN(非数字首字母缩写)是一个特殊浮点所有使用标准IEEE浮点表示系统都可以识别 pandas将NaN看作是可互换,用于指示缺失。...有几个有用函数用于检测、删除和替换panda DataFrame。...要检查panda DataFrame,我们使用isnull()notnull()方法。方法返回布尔数据名,对于NaN为真。...通常回根据一个多个对panda DataFrame进行排序,或者根据panda DataFrame行索引行名称进行排序。 例如,我们希望按学生名字按升序排序。

8.1K20

删除重复,不只Excel,Python pandas更行

第3行和第4行包含相同用户名,但国家和城市不同。 删除重复 根据你试图实现目标,我们可以使用不同方法删除重复项。最常见两种情况是:从整个表删除重复项查找唯一。...first’(默认):保留第一个重复;’last’:保留最后一个重复。False:删除所有重复项。 inplace:是否覆盖原始数据框架。...图3 在上面的代码,我们选择不传递任何参数,这意味着我们检查所有是否存在重复项。唯一完全重复记录是记录#5,它被丢弃了。因此,保留了第一个重复。...图4 这一次,我们输入了一个列名“用户姓名”,告诉pandas保留最后一个重复。现在pandas将在“用户姓名”检查重复项,相应地删除它们。...如果我们指定inplace=True,那么原始df将替换为新数据框架,删除重复项。 图5 在列表数据表列查找唯一 有时,我们希望在数据框架列表查找唯一

5.9K30

整理了10个经典Pandas数据查询案例

在开始之前,先快速回顾一下Pandas查询函数query。查询函数用于根据指定表达式提取记录,返回一个新DataFrame。表达式是用字符串形式表示条件条件组合。...PANDASDATAFRAME(.loc和.iloc)属性用于根据行和标签和索引提取数据集子集。因此,并不具备查询灵活性。...在后端Pandas使用eval()函数对该表达式进行解析和求值,返回表达式被求值为TRUE数据子集记录。所以要过滤PandasDataFrame,需要做就是在查询函数中指定条件即可。...: df.query("Quantity == 95 or UnitPrice == 182") output 返回满足两个条件任意一个条件所有。...= = 'Delivered'") output 查询表达式包含了日期时间和文本条件返回了符合查询表达式所有记录 替换 上面的查询中都会生成一个新df。

19420

整理了10个经典Pandas数据查询案例

在开始之前,先快速回顾一下Pandas查询函数query。查询函数用于根据指定表达式提取记录,返回一个新DataFrame。表达式是用字符串形式表示条件条件组合。...PANDASDATAFRAME(.loc和.iloc)属性用于根据行和标签和索引提取数据集子集。因此,并不具备查询灵活性。...在后端Pandas使用eval()函数对该表达式进行解析和求值,返回表达式被求值为TRUE数据子集记录。所以要过滤PandasDataFrame,需要做就是在查询函数中指定条件即可。...: df.query("Quantity == 95 or UnitPrice == 182") output 返回满足两个条件任意一个条件所有。...= = 'Delivered'") output 查询表达式包含了日期时间和文本条件返回了符合查询表达式所有记录 替换 上面的查询中都会生成一个新df。

3.8K20

python df 替换_如何用Python做数据分析,没有比这篇文章更详细了(图文详情)...

Python 中使用 unique 函数查看唯一。  查看唯一  Unique 是查看唯一函数,只能对数据表特定进行检查。下面是代码,返回结果是该唯一。...主要内容包括对空,大小写问题,数据格式和重复处理。这里不包含对数据间逻辑验证。  处理空(删除填充)  我们在创建数据表时候在 price 字段故意设置了几个 NA 。...Excel 可以通过“查找和替换”功能对空进行处理,将空统一替换为 0 均值。也可以通过“定位”空来实现。  ... 75 beijing  8Name: city, dtype: objec  数值修改及替换  数据清洗中最后一个问题是数值修改替换,Excel 中使用“查找和替换”功能就可以实现数值替换。  ...Where 函数用来对数据进行判断和分组,下面的代码我们对 price 进行判断,将符合条件分为一组,不符合条件分为另一组,使用 group 字段进行标记。

4.4K00

请教个问题,我想把数据名字重复删掉,只保留年纪大怎么整呢?

一、sort_values()函数用途 pandassort_values()函数原理类似于SQLorder by,可以将数据集依照某个字段数据进行排序,该函数即可根据指定数据也可根据指定行数据排序...=‘last’) 参数说明 参数 说明 by 指定列名(axis=0’index’)索引(axis=1’columns’) axis 若axis=0’index’,则按照指定数据大小排序;...若axis=1’columns’,则按照指定索引数据大小排序,默认axis=0 ascending 是否按指定数组升序排列,默认为True,即升序排列 inplace 是否用排序后数据集替换原来数据...,默认为False,即不替换 na_position {‘first’,‘last’},设定缺失显示位置 三、例子 单条件根据排序删除重复 import pandas as pd data =...最后感谢粉丝【谢峰】提问,感谢【甯同学】、【论草莓如何成为冻干莓】给出思路和代码解析,感谢【dcpeng】、【此类生物】、【凡人不烦人】等人参与学习交流。

1.6K10
领券