首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据专家最常使用的 10 大类 Pandas 函数 ⛵

图片 5.处理重复我们手上的数据集很可能存在重复记录,某些数据意外两次输入到数据源中,清洗数据时删除重复很重要。...以下函数很常用:duplicated: 识别DataFrame中是否有重复,可以指定使用哪些列来标识重复。drop_duplicates:从 DataFrame 中删除重复。...一般建议大家先使用 duplicated检查重复,确定业务上需要删除重复,再使用这个函数。图片 6.处理缺失值现实数据集中基本都会存在缺失值的情况,下面这些函数常被用作检查和处理缺失值。...dropna: 对数据做删除处理。注意它有很重要的参数how(如何确定观察是否被丢弃)和 thred(int类型,保留缺失值的数量)。...”].map(lambda x: int(x[-4:])).apply:通过多列的数据创建的字段,在创建列时经常需要指定 axis=1。

3.5K21
您找到你想要的搜索结果了吗?
是的
没有找到

数据导入与预处理-课程总结-04~06章

2.1.2 删除缺失值 pandas中提供了删除缺失值的方法dropna(),dropna()方法用于删除缺失值所在的一行或一列数据,返回一个删除缺失值后的对象。...keep:表示采用哪种方式保留重复,该参数可以取值为’first’(默认值)、 'last '和 ‘False’,其中’first’代表删除重复,仅保留第一次出现的数据;'last '代表删除重复...2.3.2 重复值的处理 重复值的一般处理方式是删除,pandas中使用drop_duplicates()方法删除重复值。...,该参数可以取值为’first’(默认值)、 'last ‘和’False’,其中’first’代表删除重复,仅保留第一次出现的数据;'last '代表删除重复,仅保留最后一次出现的数据;'False...’表示删除所有的重复

13K10

Hive优化器原理与源码解析系列--优化规则AggregateProjectPullUpConstantsRule(十七)

所引用sex字段值一直为常量'f',于是把Aggregate聚合中GroupBy中sex分组字段移除,在Aggregate操作之上创建一个Project投影,并把GroupBy删除sex常量'f',放置其中...引用的字段,都不是常量,则退出优化 return; } if (groupCount == map.size()) { //如果groupBy个数全是常量的话,则删除。...不能全部上拉 map.remove(map.navigableKeySet().first()); } 最后, 如果groupBy个数全是常量的话,则删除。...这也是删除GroupBy常量的关键部分(哪些常量是可以删除,仔细看前面讲过的,生成删除后的newGroupSet。创建删除常量后的Aggregate对象。...GroupBy常量的汇总aggregate AggregateCall:在Aggregate聚合操作中聚合方法的调用 adaptTo()方法:创建一个等效的AggregateCall,它适用于的输入类型和

1.4K10

pandas用法-全网最详细教程

df['price'].astype('int') 6、更改列名称: df.rename(columns={ 'category': 'category-size'}) 7、删除后出现的重复值...: df['city'].drop_duplicates() 8 、删除先出现的重复值: df['city'].drop_duplicates(keep='last') 9、数据替换: df['city...如何处理其他 axis(es) 上的索引。联盟内、 外的交叉口。 ignore_index︰ 布尔值、 默认 False。如果为 True,则不要串联轴上使用的索引值。...检查是否的串联的轴包含重复。这可以是相对于实际数据串联非常昂贵。 副本︰ 布尔值、 默认 True。如果为 False,请不要,不必要地复制数据。...df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1 7、对category字段的值依次进行分列,创建数据

5.6K30

从Excel到Python:最常用的36个Pandas函数

数据检查 数据检查的目的是了解数据的整体情况,获得数据的关键信息、数据的概况,例如整个数据的大小、所占空间、数据格式、是否有 空值和重复和具体的数据内容,为后面的清洗和预处理做好准备。...6.删除重复值 Excel的数据目录下有“删除重复”的功能 ?...Name: city, dtype: object city列中beijing存在重复,分别在第一位和最后一位 drop_duplicates()函数删除重复值 #删除后出现的重复值 df['city...使用merge函数对两个数据进行合并,合并的方式为inner,将 两个数据中共有的数据匹配到一起生成的数据命名为 df_inner。...#对category字段的值依次进行分列,创建数据,索引值为df_inner的索引列,列名称为category和size pd.DataFrame((x.split('-') for x in df_inner

11.4K31

Structured Streaming 编程指南

由存储连接器(storage connector)决定如何处理整个的写入 Append Mode:只有结果中自上次触发后附加的行将被写入外部存储。这仅适用于不期望更改结果中现有行的查询。...在这个模型中,当有数据时,Spark负责更新结果,从而减轻用户的工作。作为例子,我们来看看该模型如何处理 event-time 和延迟的数据。...(去重) 你可以使用事件中的唯一标识符对数据流中的记录进行重复数据删除。...类似于聚合,你可以使用或不使用 watermark 来删除重复数据,如下例子: 使用 watermark:如果重复记录可能到达的时间有上限,则可以在事件时间列上定义 watermark,使用 guid...和事件时间列进行重复数据删除使用 watermark:由于重复记录可能到达的时间没有上限,会将来自过去所有记录的数据存储为状态 val streamingDf = spark.readStream

2K20

Python 使用pandas 进行查询和统计详解

('gender')['age'].mean() # 按照性别和年龄分组,统计人数 df.groupby(['gender', 'age'])['name'].count() 交叉分析: # 构造一个交叉...: # 删除所有含有缺失值的行 df.dropna() # 删除所有含有缺失值的列 df.dropna(axis=1) 用指定值填充缺失值: # 将缺失值使用 0 填充 df.fillna(0) 数据去重...', 'age']) 对 Series 去重: # 对 'name' 列进行去重 df['name'].drop_duplicates() 数据合并 横向(按列)合并 DataFrame: # 创建一个的...pd.DataFrame(other_data) # 将两个 DataFrame 在列上合并 pd.concat([df, other_df], axis=1) 纵向(按行)合并 DataFrame: # 创建一个的...创建数据透视: # 统计不同性别和年龄的人数,以 'gender' 为行、'age' 为列,'name' 计数 pd.pivot_table(df, values='name', index='gender

21910

Power Pivot中3大汇总函数对比解释及使用介绍

返回 ——包含汇总依据及列名的 C. 注意事项 汇总的依据必须是或者相关的列。 不能用于虚拟添加列这种。 尽量用其他方式来替换第3和第4参数。...作用 创建按指定列分组后的计算表达式汇总 E. 案例 3 要求按学科算平均成绩。 要求按不同学校的学科平均成绩。 按学科算平均成绩,我们需要汇总学科,计算平均成绩即可。...[] [, [] [, … ] ] ] ] ] ] ] ) 位置 参数 描述 第1参数 Table 分组的 第2可选重复参数 GroupBy_ColumnName...通常表达式中用CurrentGroup函数作为参数,但不能用于多层嵌套。 CurrentGroup函数不带参数,通常和带X结尾的聚合函数一起使用。 D....) 解释:通过姓名进行分组汇总,计算当前汇总数据的成绩合计。

1.5K20

Python语言的精华:Itertools库

我们可以使用Itertools模块来丰富我们的应用程序,并在更短的时间内创建一个可靠的工作解决方案。 本文将帮助读者理解如何在项目中使用Itertools模块。...这就是为什么在内存高效和快速的应用程序中使用迭代器的原因。 我们可以打开无限的数据流(比如读取文件)获取下一(比如文件中的下一行)。然后我们可以对项目执行一个操作,继续进行下一个项目。...或者,也许我们想要重复迭代器的元素? itertools库提供了一组函数,我们可以使用这些函数来执行所需的所有功能。 本节中列出的三个函数构造返回可以是无限流的迭代器。...my_cycle = it.cycle('Python') for i in my_cycle: print(i) 结果: P y t h o n P y t h o n P Repeat 要重复一个...或者当我们有很多函数想要对iterable的每个元素执行时 或者有时我们就从迭代器中删除元素,然后对其他元素执行操作。

88620

Pandas入门教程

() 1.2 数据的创建 pandas可以创建两种数据类型,series和DataFrame; 创建Series(类似于列表,是一个一维序列) 创建dataframe(类似于excel表格,是二维数据...删除后面出现的重复值 df['A'] = df['A'].drop_duplicates() # 某一列后出现重复数据被清除 删除先出现的重复值 df['A'] = df['A'].drop_duplicates...(keep=last) # # 某一列先出现重复数据被清除 数据替换 df['A'].replace('sh','shanghai') # 同于字符串替换 四、数据操作 分组 groupby group...如何处理其他轴上的索引。外部用于联合,内部用于交集。 ignore_index: 布尔值,默认为 False。如果为 True,则不要使用串联轴上的索引值。结果轴将被标记为 0, …, n - 1。...检查的串联轴是否包含重复。相对于实际的数据串联,这可能非常昂贵。 copy: 布尔值,默认为真。如果为 False,则不要不必要地复制数据。

1K30

Python数据分析实战基础 | 清洗常用4板斧

02 删——删空去重 2.1 删空 在一些场景,源数据的缺失(空值)对于分析来说是干扰,需要系统的删除。...要把重复数据删掉,一行代码就搞定: drop_duplicates方法去重默认会删掉完全重复的行(每个值都一样的行),如果我们要删除指定列重复的数据,可以通过指定subset参数来实现,假如我们有个奇葩想法...,要基于“流量级别”这列进行去重,则可以: 我们会发现,流量有三个级别,通过指定subset参数,我们删除了这个字段重复的行,保留了各自不重复的第一行。...3.2 排序 很多情况下,我们都需要通过排序来观察数据规律,以及快速筛选出TOP N的数据。对于案例数据,我们怎么样按交易金额进行排序筛选出TOP3的渠道呢?...在分组的版块中,我们重点介绍groupby分组和cut切分。

2K21

Pandas_Study02

删除重复数据 对于数据源中的重复数据,一般来讲没有什么意义,所以一般情况下都会进行删除操作。 duplicated() duplicated 方法可以返回重复数据的分布情况,以布尔值显示。...df.drop_duplicates() df.drop_duplicated(["page"], keep="first", inplace=True) drop_duplicated() 删除重复值...,可以指定inplace 是否在原对象上直接操作,keep= last first false 等 默认first保留第一次出现的重复数据,last同时保留最后一次出现的重复数据,false 不保留 使用如上...结果一样,但每列数据的排列会有区别,因为结果会先显示左的结果 print choose.merge(course, how = "right") pandas 数据分组 1. groupby 方法...count函数可以统计分组后各列数据个数。get_group函数可以返回指定组的数据信息。而discribe函数可以返回分组后的数据的统计数据。

18110

数据分析的利器,Pandas 软件包详解与应用示例

import pandas as pd import numpy as np # 创建一个包含缺失值和重复的DataFrame data = {'A': [1, 2, np.nan], 'B': [...4, np.nan, 4]} df_with_issues = pd.DataFrame(data) # 清洗数据:填充缺失值,删除重复 df_clean = df_with_issues.fillna...(0).drop_duplicates() # 查看清洗后的数据 print(df_clean) 上面的例子中,首先创建了一个包含缺失值(np.nan)和重复的DataFrame。...然后使用fillna方法将所有缺失值替换为0,使用drop_duplicates方法删除重复的行。这样我们就得到了一个干净、整洁的数据集。...然后使用groupby方法按照'Category'列对数据进行分组,对'Values'列求和。这样我们可以得到每个类别的总和。

6710

Spark 基础(一)

创建操作RDD时,Spark会将其转换为一系列可重复计算的操作,最后生成DAG图形。...RDD操作可以分为两类,Transformation操作是指创建的RDD的操作,Action操作是触发计算结果返回值的操作。...(numTasks)):移除RDD中的重复,返回包含不同元素的RDDgroupByKey(numTasks):将RDD中有相同键的元素分组成一个迭代器序列,返回一个(key, iterable)对的...优化查询:使用explain()除非必须要使用SQL查询,否则建议尽可能使用DataFrame API来进行转换操作。限制:Spark SQL不支持跨联接、不支持子查询嵌套等。4....可以使用read方法 从外部数据源中加载数据或直接使用Spark SQL的内置函数创建的DataFrame。创建DataFrame后,需要定义列名、列类型等元信息。

80240

用 Pandas 进行数据处理系列 二

astype(‘int’)更改数据的格式df.rename(columns={‘category’: ‘category-size’})更改列名df[‘city’].drop_duplicates()删除后出现的重复值...df[‘city’].drop_duplicates(keep=‘last’)删除先出现的重复值df[‘city’].replace(‘sh’, ‘shanghai’)数据替换 数据预处理 数据合并...df_right = pd.merge(df, df1, how='right') # 右联 df_outer = pd.merge(df, df1, how='outer') # 集 设置索引列...对复合多个条件的数据进行分级标记 df.loc[(df['city'] == 'beijing') & (df['pr'] >= 4000), 'sign'] = 1 对 category 字段的值依次进行分列,创建数据...‘shanghai’])]判断 city 列里是否包含 beijing 和 shanghai ,然后将符合条件的数据提取出来pd.DataFrame(category.str[:3])提取前三个字符,生成数据

8.1K30
领券