首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据专家最常使用 10 大类 Pandas 函数 ⛵

图解数据分析:从入门到精通系列教程数据科学工具库速查表 | Pandas 速查表 1.读取数据我们经常要从外部源读取数据,基于不同源数据格式,我们可以使用对应 read_*功能:read_csv:我们读取...图片 5.处理重复我们手上数据集很可能存在重复记录,某些数据意外两次输入到数据源中,清洗数据时删除重复很重要。...以下函数很常用:duplicated: 识别DataFrame中是否重复,可以指定使用哪些来标识重复。drop_duplicates:从 DataFrame 中删除重复。...一般建议大家先使用 duplicated检查重复,确定业务上需要删除重复,再使用这个函数。图片 6.处理缺失值现实数据集中基本都会存在缺失值情况,下面这些函数常被用作检查和处理缺失值。...注意:重要参数index(唯一标识符), columns(列成为值),和 values(具有)。

3.5K21

删除重复值,不只Excel,Python pandas更行

第3行和第4行包含相同用户名,但国家和城市不同。 删除重复值 根据你试图实现目标,我们可以使用不同方法删除重复。最常见两种情况是:从整个表中删除重复或从中查找唯一值。...我们将了解如何使用不同技术处理这两种情况。 从整个表中删除重复 Python提供了一个方法.drop_duplicates()可以帮助我们轻松删除重复!...图3 在上面的代码中,我们选择不传递任何参数,这意味着我们检查所有是否存在重复。唯一完全重复记录是记录#5,它被丢弃了。因此,保留了第一个重复值。...图4 这一次,我们输入了一个列名“用户姓名”,并告诉pandas保留最后一个重复值。现在pandas将在“用户姓名”检查重复,并相应地删除它们。...我们(或pandas Series)包含两个重复值,”Mary Jane”和”Jean Grey”。通过将该转换为一个集,我们可以有效地删除重复

5.9K30
您找到你想要的搜索结果了吗?
是的
没有找到

python数据处理 tips

在本文中,我将分享一些Python函数,它们可以帮助我们进行数据清理,特别是在以下方面: 删除未使用 删除重复 数据映射 处理空数据 入门 我们将在这个项目中使用pandas,让我们安装包。...删除重复 让我们使用此函数检查此数据集中重复。 df[df.duplicated(keep=False)] ? keep允许一些参数检查重复。...first:除第一次出现外,将重复标记为True。 last:将重复标记为True,但最后一次出现情况除外。 False:将所有副本标记为True。...在本例中,我希望显示所有的重复,因此传递False作为参数。现在我们已经看到这个数据集中存在重复,我想删除它们并保留第一个出现。下面的函数用于保留第一个引用。...df = df.drop_duplicates(keep="first") 我们可以使用len(df)或df[df.duplicated(keep=False)]检查是否删除了重复

4.3K30

Pandas 2.2 中文官方教程和指南(一)

安装 pandas 开发版本 安装开发版本是最快方式: 尝试一个将在下一个版本中发布新功能(即,最近合并到主分支拉取请求中功能)。 检查您遇到错误是否自上次发布以来已修复。...pandas 非常适合许多不同类型数据: 具有异构类型表格数据,如 SQL 表或 Excel 电子表格 有序和无序(不一定是固定频率)时间序列数据 具有行和标签任意矩阵数据(同质或异质类型)...数据结构中不规则、具有不同索引数据轻松转换为 DataFrame 对象变得容易 对大型数据集进行智能基于标签切片、高级索引和子集操作 直观合并和连接数据集 灵活数据集重塑和透视 轴分层标签...选择括号内条件titanic["Age"] > 35检查Age是否大于 35 行: In [14]: titanic["Age"] > 35 Out[14]: 0 False 1...要基于此类函数过滤行,请在选择括号[]内使用条件函数。在这种情况下,选择括号内条件titanic["Pclass"].isin([2, 3])检查Pclass数值为 2 或 3 行。

16110

数据导入与预处理-课程总结-04~06章

DataFrame.duplicated(subset=None, keep='first') subset:表示识别重复索引或索引序列,默认标识所有的索引。...keep:表示采用哪种方式保留重复,该参数可以取值为’first’(默认值)、 'last '和 ‘False’,其中’first’代表删除重复,仅保留第一次出现数据;'last '代表删除重复...,仅保留最后一次出现数据;'False’表示所有相同数据都被标记为重复。...,该参数可以取值为’first’(默认值)、 'last ‘和’False’,其中’first’代表删除重复,仅保留第一次出现数据;'last '代表删除重复,仅保留最后一次出现数据;'False...# 重塑df,使之具有两层行索引 # 原来数据one, two, three就到了行上来了,形成多层索引。

13K10

Pandas Cookbook》第06章 索引对齐1. 检查索引2. 求笛卡尔积3. 索引爆炸4. 用不等索引填充数值5. 从不同DataFrame追加6. 高亮每最大值7. 用链式方法重现

BASE_SALARY'].copy() salary1 is salary2 Out[24]: False # 对其中一个做索引排序,比较二者是否不同 In[25]: salary1...193.0 castrja01 243.0 congeha01 46.0 Name: H, dtype: float64 # 检查结果中是否有缺失值...# 再从baseball_15中选取一些,有相同、也有不同 In[45]: df_15 = baseball_15[['AB', 'R', 'H', 'HR']] df_15....从不同DataFrame追加 # 读取employee数据,选取'DEPARTMENT', 'BASE_SALARY'这两 In[48]: employee = pd.read_csv('data...# random_salary中是有重复索引,employee DataFrame标签要对应random_salary中多个标签 In[57]: employee['RANDOM_SALARY'

2.9K10

Pandas 秘籍:1~5

对象 np.object O和object 通常为字符串,但是对于具有多种不同类型其他 Python 对象(元组,列表,字典等)来说是万能。...第二个操作实际上是检查数据帧是否具有相同标签索引,以及是否具有相同数量元素。 如果不是这种情况,操作将失败。 有关更多信息,请参见第 6 章,“索引对齐”中“生成笛卡尔积”秘籍。...我记得axis参数含义,认为 1 看起来像一,对axis=1任何操作都会返回一个新数据(与该具有相同数量)。...对象数据类型(例如INSTNM)与其他 pandas 数据类型不同。 对于所有其他 Pandas 数据类型,该每个值都是相同数据类型。...在分析期间,可能首先需要找到一个数据组,该数据组在单个中包含最高n值,然后从该子集中找到最低m基于不同值。

37.2K10

盘点66个Pandas函数,轻松搞定“数据清洗”!

Pandas基于NumPy一种工具,该工具是为解决数据分析任务而创建。它提供了大量能使我们快速便捷地处理数据函数和方法。...df.sample(3) 输出: 如果要检查数据中各数据类型,可以使用.dtypes;如果想要值查看所有的列名,可以使用.columns。...缺失值与重复Pandas清洗数据时,判断缺失值一般采用isnull()方法。...df.fillna(50) 输出: Pandas清洗数据时,判断重复值一般采用duplicated()方法。如果想要直接删除重复值,可以使用drop_duplicates() 方法。...df.query("语文 > 英语") 输出: select_dtypes()方法可用于筛选某些数据类型变量或。举例,我们仅选择具有数据类型'int64'

3.7K11

Pandas 学习手册中文第二版:1~5

将数据分组到通用篮子中 聚合具有相似特征数据 应用函数计算含义或执行转换 查询和切片来探索整体 重组为其他形式 为不同类型数据建模,例如类别,连续,离散和时间序列 将数据重新采样到不同频率 存在许多数据处理工具...人们常说,如果其他研究人员无法复制您实验和结果,那么您就不会证明任何事情。 幸运是,对于您来说,通过使用 Pandas 和 Python,您将可以轻松地使分析具有重复性。...以下通知 Pandas 将Date内容转换为实际TimeStamp对象: 如果我们检查是否有效,我们会看到日期为Timestamp: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传...由于存在多个维度,因此应用这些维度过程略有不同。 我们将通过首先学习选择,然后选择行,在单个语句中选择行和组合以及使用布尔选择来检查这些内容。...这些示例与Series示例相似,但是证明,由于DataFrame具有和关联索引,因此语法与Series有所不同

8.1K10

初学者使用Pandas特征工程

它是用于数据分析操作最优选和广泛使用库之一。 pandas具有简单语法和快速操作。它可以轻松处理多达1万条数据。...在这里,我们以正确顺序成功地将该转换为标签编码。 用于独热编码get_dummies() 获取虚拟变量是pandas功能,可帮助将分类变量转换为独热变量。...我们可以将任何函数传递给apply函数参数,但是我主要使用lambda函数, 这有助于我在单个语句中编写循环和条件。 使用apply和lambda函数,我们可以从中存在唯一文本中提取重复凭证。...在我们大卖场销售数据中,我们有一个Item_Identifier,它是每个产品唯一产品ID。此变量前两个字母具有三种不同类型,即DR,FD和NC,分别代表饮料,食品和非消耗品。...尾注 那就是pandas力量;仅用几行代码,我们就创建了不同类型新变量,可以将模型性能提升到另一个层次。

4.8K31

Pandas 学习手册中文第二版:6~10

.iloc[] 查找基于基于0位置,而不是基于索引标签。 .ix[] 混合,当给出整数时将尝试基于0查找; 其他类型是基于标签。 将不建议使用此属性,因此请保留其他三个属性。...这只是处理自动收集数据现实,甚至是手动收集数据时创建情况。 在这些情况下,通常认为最好是在具有重复而不是缺失数据方面出错,特别是如果可以认为数据是等幂。...请注意,删除重复时会保留索引。 重复记录可能具有不同索引标签(在计算重复时不考虑标签)。 因此,保留行会影响结果DataFrame对象中标签集。 默认操作是保留重复第一行。.../apachecn/apachecn-ds-zh/-/raw/master/docs/learning-pandas-2e/img/00492.jpeg)] 如果要基于较小检查重复,则可以指定列名列表...用其他值(甚至另一种类型数据)明确替换某些值 应用方法来基于算法转换值 只需删除多余和行 我们已经了解了如何使用几种技术删除行和,因此在此不再赘述。

2.2K20

数据导入与预处理-第5章-数据清理

需要说明是,在分析演变规律、样本不均衡处理、业务规则等场景中,重复具有一定使用价值,需做保留。...how:表示删除缺失值方式。 thresh:表示保留至少有N个非NaN值行或。 subset:表示删除指定缺失值。 inplace:表示是否操作原数据。...DataFrame.duplicated(subset=None, keep='first') subset:表示识别重复索引或索引序列,默认标识所有的索引。...keep:表示采用哪种方式保留重复,该参数可以取值为’first’(默认值)、 'last '和 ‘False’,其中’first’代表删除重复,仅保留第一次出现数据;'last '代表删除重复...,仅保留最后一次出现数据;'False’表示所有相同数据都被标记为重复

4.4K20

合并没有共同特征数据集

对此,有两个术语会经常用到:记录连接和模糊匹配,例如,尝试把基于人名把不同数据文件连接在一起,或合并只有组织名称和地址数据等,都是利用“记录链接”和“模糊匹配”完成。...在本文中,我们将学习如何使用这两个工具(或者两个库)来匹配两个不同数据集,也就是基于名称和地址信息数据集。此外,我们还将简要学习如何把这些匹配技术用于删除重复数据。...之所以选这个数据集,是因为医院数据具有一些独特性,使其难以匹配: 许多医院在不同城市都有相似的名字(圣卢克斯、圣玛丽、社区医院,这很类似我国很多城市都有“协和医院”一样) 在某个城市内,医院可以占用几个街区...其主要功能如下: 能够根据数据类型,为每个定义匹配类型 使用“块”限制潜在匹配池 使用评分算法提供匹配排名 衡量字符串相似度多种算法 有监督和无监督学习方法 多种数据清理方法 权衡之下...dupe_indexer.sortedneighbourhood(left_on='State') dupe_candidate_links = dupe_indexer.index(hospital_dupes) 根据城市、名称和地址检查是否重复记录

1.6K20

python数据科学系列:pandas入门详细教程

、数据分析和数据可视化全套流程操作 pandas主要面向数据处理与分析,主要具有以下功能特色: 按索引匹配广播机制,这里广播机制与numpy广播机制还有很大不同 便捷数据读写操作,相比于numpy...其中,由于pandas允许数据类型是异构,各之间可能含有多种不同数据类型,所以dtype取其复数形式dtypes。...isin/notin,条件范围查询,即根据特定是否存在于指定列表返回相应结果 where,仍然是执行条件查询,但会返回全部结果,只是将不满足匹配条件结果赋值为NaN或其他指定值,可用于筛选或屏蔽值...,按行检测并删除重复记录,也可通过keep参数设置保留。...,要求每个df内部列名是唯一,但两个df间可以重复,毕竟有相同才有拼接实际意义) merge,完全类似于SQL中join语法,仅支持横向拼接,通过设置连接字段,实现对同一记录不同信息连接,支持

13.8K20

Pandas入门教程

索引操作 loc loc主要是基于标签(label),包括行标签(index)和标签(columns),即行名称和列名称,可以使用df.loc[index_name,col_name],选择指定位置数据...结果如下: 当然还有其他情况: data.dropna(axis = 1) # 丢弃有缺失值(一般不会这么做,这样会删掉一个特征) data.dropna(axis=1,how="...删除后面出现重复值 df['A'] = df['A'].drop_duplicates() # 某一后出现重复数据被清除 删除先出现重复值 df['A'] = df['A'].drop_duplicates...生成分层索引中级别的名称。 verify_integrity: 布尔值,默认为 False。检查串联轴是否包含重复。相对于实际数据串联,这可能非常昂贵。 copy: 布尔值,默认为真。...((6,4)),index=index) df 输出结果: 六、总结 本文基于源文件zlJob.csv,进行了部分pandas操作,演示了pandas库常见数据处理操作,由于pandas功能复杂

1K30

Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

1.2.2 duplicated()方法语法格式  ​ subset:用于识别重复标签或标签序列,默认识别所有的标签。 ​...keep:删除重复并保留第一次出现取值可以为 first、last或 False  ​ duplicated()方法用于标记 Pandas对象数据是否重复重复则标记为True,不重复则标记为False...b)用具体值来进行替换,可用前后两个观测值平均值修正该异常值 ​ c)不处理,直接在具有异常值数据集上进行统计分析 ​ d)视为缺失值,利用缺失值处理方法修正该异常值。  ​...数据重塑  3.1 重塑层次化索引  ​ Pandas中重塑层次化索引操作主要是 stack()方法和 unstack()方法,前者是将数据“旋转”为行,后者是将数据行“旋转”为。 ...4.1.1 rename()方法  index,columns:表示对行索引名或索引名转换。  inplace:默认为False,表示是否返回新Pandas对象。

5.1K00

数据处理利器pandas入门

这里还要注意一点:由于type对应了不同空气质量要素,而不同空气质量要素具有不同取值范围,因此在使用describe查看统计信息时,应针对不同要素进行,这样才有具体意义,才能看出每个要素值分布...,以及确定是否存在异常值。...Pandas主要有两种数据查询选择操作: 基于标签查询 基于整数位置索引查询 Pandas在选择时,无需使用 date[:, columns] 形式,先使用 : 选择所有行,再指定 columns...基于标签查询 .loc .loc 主要基于标签进行数据选择,此外还可以使用逻辑数组。当所选择不存在时会诱发异常。...箱线图 上图可以看出:不同要素其值所在范围是不同,在探索性分析时应分开分析。 除了箱线图之外,Pandas还可以绘制折线图,条形图,饼图,密度分布等。

3.6K30

5个例子介绍Pandasmerge并对比SQL中join

这些操作非常有用,特别是当我们在表不同数据中具有共同数据(即数据点)时。 ? pandasmerge图解 我创建了两个简单dataframe和表,通过示例来说明合并和连接。 ?...您可能已经注意到,id并不完全相同。有些值只存在于一个dataframe中。我们将在示例中看到处理它们方法。 示例1 第一个示例是基于id共享值进行合并或连接。...import pandas as pd cust.merge(purc, on='id') ? Pandasmerge函数不会返回重复。...另一方面,如果我们选择两个表中所有(“*”),则在SQL join中id重复。...因此,最好检查特定RDBMS文档,看看它是否支持完整外部连接。

2K10
领券