首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

删除重复,不只Excel,Python pandas更行

此方法包含以下参数: subset:引用标题,如果只考虑特定以查找重复使用此方法,默认为所有。 keep:保留哪些重复。’...图3 在上面的代码中,我们选择不传递任何参数,这意味着我们检查所有是否存在重复项。唯一完全重复记录是记录#5,它被丢弃了。因此,保留了第一个重复。...如果我们指定inplace=True,那么原始df将替换为新数据框架,并删除重复项。 图5 在列表或数据表列中查找唯一 有时,我们希望在数据框架列表中查找唯一。...当我们对pandas Series对象调用.unique()时,它将返回唯一元素列表。...图7 Python集 获取唯一另一种方法是使用Python中数据结构set,集(set)基本上是一组唯一集合。由于集只包含唯一项,如果我们将重复项传递到集中,这些重复项将自动删除。

5.9K30

在线Excel计算函数引入方法有哪些?提升工作效率技巧分享!

一列或行组合。...参数 必需 描述 array 是 要进行过滤数组或区域 include 是 一个布尔数组,其高度或宽度与要进行过滤数组相同 [if_empty] 否 如果包含数组中所有均为空(filter结果为空...参数 必需 描述 array 是 返回唯一区域或数组 [by_col] 否 指示如何比较布尔;省略或为false为按行; true时为按 [occurs_once] 否 布尔,为true返回出现一次唯一...如果公式返回一个隐式交集不会执行任何操作(即使是在后台完成)。 逻辑工作方式如下: 如果是单个项, 返回该项。 如果一个区域, 则从与公式位于同一行或单元格中返回。...该LAMBDA需要一个单一参数。 row 阵列中一行。 7. BYCOL函数 将LAMBDA应用于每一列,并返回结果数组。例如,如果原始数组是32行,返回数组是31行。

34910
您找到你想要的搜索结果了吗?
是的
没有找到

五大方法添加条件-python类比excellookup

这个函数依次接受三个参数:条件;如果条件为真,分配给新如果条件为假,分配给新 # np.where(condition, value if condition is true, value...,给它提供两个参数:一个条件,另一个对应等级列表。...right :布尔,默认为True表示包含最右侧数值 当“ right = True”(默认)时,“ bins”=[1、2、3、4]表示(1,2],(2,3],(3,4] 当bins是一个间隔索引时...3 如果为False,返回分箱整数指示符,即x中数据在第几个箱子里 当bins是间隔索引时,将忽略此参数 retbins: 是否显示分箱分界。...duplicates:如果分箱临界唯一引发ValueError或丢弃非唯一 # 方法五 数据分箱pd.cut()——最类似于excel 中 lookup方法 df7 = df.copy() bins

1.9K20

Excel公式练习90:返回字符串中第一块数字之后所有内容(续3)

引言:在《Excel公式练习87:返回字符串中第一块数字之后所有内容》、《Excel公式练习88:返回字符串中第一块数字之后所有内容(续1)》和《Excel公式练习89:返回字符串中第一块数字之后所有内容...例如,如果字符串是Monaco7190Australia1484,那么返回第一块数字右侧所有字符串Australia1484。...新数组几乎相同,只是其中一列所有元素都是一个字符长,而另一列所有元素都是两个字符长。 如果在工作表单元格区域中输入,如下图2所示。...图5 有趣事情来了!上图5中突出显示行正好位于我们想求字符串之前,它是整个数组中唯一一列为零,第二为负行。...现在,根据上面突出显示行,我们要查找字符串之前数字是唯一包含1行。

1.3K10

VBA中高级筛选技巧:获取唯一

例如,在一个有100000条记录数据集中,其中可能包含数百个唯一字符串,如果这些唯一记录提取出来,那么数据清理会变得更容易。...如果数据没有标题,即第一个单元格是常规一个可能会在唯一列表中出现两次。 通常,我们只是在一列中查找唯一。...例如,如果A包含设备名称,B包含设备安装地点,使用Range(“A:B”).AdvancedFilter方法可查找唯一“名称+地点”组合。这可以扩展到任意数量。...如果输出区域太小,无法包含所有结果,VBA将溢出该区域。这意味着无法限制输出,因此要选择一个没有或可以覆盖原有。...另一个需要注意是,如果要筛选数据中有两具有相同标题,xlFilterCopy可能会将具有该名称一列复制两次到目标(CopyToRange)。

7.8K10

Excel公式技巧88:使用FREQUENCY函数统计不同唯一和连续(上)

FREQUENCY函数是一个较难掌握Excel工作表函数,这篇文章收集整理了一组运用FREQUENCY函数公式,用来统计不同唯一和连续数量,希望能够帮助有兴趣朋友更进一步熟悉掌握FREQUENCY...如果 data_array不包含任何FREQUENCY函数返回一个数组。 bins_array,必需,数组或引用,代表要将data_array中分组区间。...如果bins_array不包含任何FREQUENCY返回 data_array 中元素数。 注意: FREQUENCY函数在选择要在其中显示返回分布一系列相邻单元格后,作为数组公式输入。...返回数组公式必须以数组公式输入。 统计不同 仅数值 如下图1所示,在单元格区域B4:B12中有一列数值,我们想要知道有多少个不同。 ?...同样,如果确定单元格都是文本数据类型,那么也不需要“”&,因此可以简单地从公式中完全删除“~”&。还值得注意是,如果任何单元格在文本中其他位置包含通配符(尤其是*),公式可能会失败。

1.9K20

pandas技巧4

) # 查看DataFrame对象中每一列唯一和计数 df.isnull().any() # 查看是否有缺失 df[df[column_name].duplicated()] # 查看column_name...,:] # 返回第一行 df.iloc[0,0] # 返回一列一个元素 df.loc[0,:] # 返回第一行(索引为默认数字时,用法同df.iloc),但需要注意是loc是按索引,iloc参数只接受数字参数...删除所有包含行 df.dropna(axis=1) # 删除所有包含 df.dropna(axis=1,thresh=n) # 删除所有小于n个非空行 df.fillna(value=...') 效果相同 数据统计 df.describe() #查看数据汇总统计 df.mean() # 返回所有均值 df.corr() # 返回之间相关系数 df.count() # 返回一列非空个数...df.max() # 返回一列最大 df.min() # 返回一列最小 df.median() # 返回一列中位数 pd.date_range('1/1/2000', periods=

3.4K20

python df 替换_如何用Python做数据分析,没有比这篇文章更详细了(图文详情)...

Python 中使用 dtypes 函数来返回数据格式。  Dtypes 是一个查看数据格式函数,可以一次性查看数据表中所有数据格式,也可以指定一列来单独查看。  ...“定位条件”在“开始”目录下“查找和选择”目录中。  查看空  Isnull 是 Python 中检验空函数,返回结果是逻辑包含返回 True,不包含返回 False。...73 False  84 True  95 False  10Name: price, dtype: bool  查看唯一  Excel 中查看唯一方法是使用“条件格式”对唯一进行颜色标记。...Python 中使用 unique 函数查看唯一。  查看唯一  Unique 是查看唯一函数,只能对数据表中特定进行检查。下面是代码,返回结果是该唯一。...下面的代码和结果中可以看到使用 dropna 函数后,包含 NA 两个字段已经不见了。返回一个包含数据表。

4.4K00

Pandas速查卡-Python数据科学

) 所有唯一和计数 选择 df[col] 返回一维数组col df[[col1, col2]] 作为新数据框返回 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...df.iloc[0,:] 第一行 df.iloc[0,0] 第一列一个元素 数据清洗 df.columns = ['a','b','c'] 重命名列 pd.isnull() 检查空返回逻辑数组...pd.notnull() 与pd.isnull()相反 df.dropna() 删除包含所有行 df.dropna(axis=1) 删除包含所有 df.dropna(axis=1,thresh...(col) 从一列返回一组对象 df.groupby([col1,col2]) 从多返回一组对象 df.groupby(col1)[col2] 返回col2中平均值,按col1中分组...可以是“左”,“右”,“外”,“内”连接 统计 以下这些都可以应用于一个数组。

9.2K80

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

在 Pandas 中,索引可以设置为一个(或多个)唯一,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引实际上可用于引用行。...tips[tips["total_bill"] > 10] 结果如下: 上面的语句只是将一系列 True/False 对象传递给 DataFrame,返回所有带有 True 行。...选择 在Excel电子表格中,您可以通过以下方式选择所需: 隐藏; 删除; 引用从一个工作表到另一个工作表范围; 由于Excel电子表格通常在标题行中命名,因此重命名列只需更改第一个单元格中文本即可...如果找到子字符串,该方法返回其位置。如果未找到,返回 -1。请记住,Python 索引是从零开始。 tips["sex"].str.find("ale") 结果如下: 3....; 如果匹配多行,每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表中所有,而不仅仅是单个指定; 它支持更复杂连接操作; 其他注意事项 1.

19.5K20

Pandas速查手册中文版

对象唯一和计数 df.apply(pd.Series.value_counts):查看DataFrame对象中每一列唯一和计数 数据选取 df[col]:根据列名,并以Series形式返回...[0,0]:返回一列一个元素 数据清理 df.columns = ['a','b','c']:重命名列名 pd.isnull():检查DataFrame对象中,并返回一个Boolean数组...pd.notnull():检查DataFrame对象中非空,并返回一个Boolean数组 df.dropna():删除所有包含行 df.dropna(axis=1):删除所有包含 df.dropna...], ascending=[True,False]):先按col1升序排列,后按col2降序排列数据 df.groupby(col):返回一个col进行分组Groupby对象 df.groupby...df.corr():返回之间相关系数 df.count():返回一列非空个数 df.max():返回一列最大 df.min():返回一列最小 df.median():返回一列中位数

12.1K92

pandas库简单介绍(2)

3、 DataFrame数据结构 DataFrame表示是矩阵数据表,每一列可以是不同类型(数值、字符串、布尔等)。...DataFrame既包含行索引,也包含索引,可以视为多个Series集合而成,是一个非常常用数据结构。...[列名]进行移除;增加列有两个方法:1,直接frame[列名]=;2,frame[列名]=Series对象,如果被赋值不存在,会生成一个。...计算两个索引交集 union 计算两个索引并集 delete 将位置i元素删除,并产生新索引 drop 根据传入参数删除指定索引,并产生新索引 unique 计算索引唯一序列 is_nuique...如果索引序列唯一返回True is_monotonic 如果索引序列递增返回True 4 pandas基本功能 这里主要关注Series或DataFrame数据交互机制和最主要特性。

2.3K10

从pandas中这几个函数,我看懂了道家“一生二、二生三、三生万物”

正因为各返回一个ndarray,而对于一个dataframe对象各唯一ndarray长度可能不一致,此时无法重组成一个二维ndarray,从这个角度可以理解unique不适用于dataframe...03 value_counts 如果说unique可以返回唯一结果的话,那么value_counts则在其基础上进一步统计各唯一出现个数;类似的,unique返回一个无标签一维ndarray作为结果...,与之对应value_counts返回一个有标签一维series作为结果。...数据透视表本质上仍然数据分组聚合一种,只不过是以其中一列唯一结果作为行、另一列唯一结果作为,然后对其中任意(行,)取值坐标下所有数值进行聚合统计,就好似完成了数据透视一般。...分组后如不加['成绩']也可返回dataframe结果 从结果可以发现,与用groupby进行分组统计结果很是相近,不同是groupby返回对象是2个维度,而pivot_table返回数据格式更像是包含

2.4K10

《DAX进阶指南》-第6章 动态可视化

毕竟,选择2048年1月上下文仍将返回今天滚动总计。 6.2.2创建辅助表 如果我们希望用户在报表中有一个切片器来选择其中一个KPI,则需要在模型中有一列来填充切片器。...在模型中,我们现在辅助表上有一个上下文查询,我们可以使用DAX来确定所做选择。如果在“代码”列上使用DAXSUM函数,二次幂可确保所选项每个组合对应于代码唯一总和。...该函数计算表达式,并将其与连续进行比较。当表达式和相等时,将返回相应结果。如果不是,表达式将与下一个进行比较。当所有都不等于表达式时,该函数返回其他,如果省略其他,返回空白。...在我们示例中,我们不使用其他参数。因此,如果所做选择不会产生SWITCH列表中度量值将返回空白。 由于不选择任何内容等效于选择所有项,因此不在时间段上使用切片器将导致空白结果。...国家/地区,城市表中一列。 零售类型,客户表中一列。 组,产品表中一列这些所有都需要位于单个中,才能在视觉对象中使用它们。为此,我们将创建一个包含辅助表。

5.6K50

简单Excel VBA编程问题解答——完美Excel第183周小结

1.表达式11mod 3计算结果是什么? 2。11除以3商3余2,因此答案是2。 2.如果A为True而B为False,表达式A Or B计算结果是什么? True。这是很显然。...IIf函数评估条件,如果True返回一个如果为False,返回另一个。 9.如何确保Do... Loop语句中语句至少执行一次? 仅当条件置于循环末尾时,才能保证语句至少执行一次。...19.哪两个函数用于搜索文本(在另一个字符串中查找一个字符串)? InStr函数和InStrRev函数。 20.如何转换字符串,以使每个单词首字母大写,而所有其他字母小写?...Range对象Value属性返回一个空字符串。 25.Worksheet对象UsedRange属性引用什么? 包含工作表中所有已使用单元格最小单元格区域。 26.如何在单元格中添加批注?...Excel公式技巧64:为重复构造包含唯一辅助 Excel小技巧67:列出工作表中所有定义名称 完美Excel社群本周内容 本周完美Excel社群内容更新不是很多,仍然是《Excel编程周末速成班

6.6K20

python数据科学系列:pandas入门详细教程

index/columns/values,分别对应了行标签、标签和数据,其中数据就是一个格式向上兼容所有数据类型array。...自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多或多行:单或多值(多个列名组成列表)访问时按进行查询,单访问不存在列名歧义时还可直接用属性符号" ....unique、nunique,也是仅适用于series对象,统计唯一信息,前者返回唯一结果列表,后者返回唯一个数(number of unique) ?...2 分组聚合 pandas另一个强大数据分析功能是分组聚合以及数据透视表,前者堪比SQL中groupby,后者媲美Excel数据透视表。...例如,以某取值为重整后行标签,以另一列取值作为重整后标签,以其他取值作为填充value,即实现了数据表行列重整。

13.8K20

整理了25个Pandas实用技巧

isna()会产生一个True和False组成DataFrame,sum()会将所有True转换为1,False转换为0并把它们加起来。...类似地,你可以通过mean()和isna()函数找出每一列中缺失百分比。 ? 如果你想要舍弃那些包含了缺失,你可以使用dropna()函数: ?...一个字符串划分成多 我们先创建另一个示例DataFrame: ? 如果我们需要将“name”这一列划分为三个独立,用来表示first, middle, last name呢?...如果你不是对所有都感兴趣,你也可以传递列名切片: ? MultiIndexed Series重塑 Titanic数据集Survived由1和0组成,因此你可以对这一列计算总存活率: ?...它会返回一个互动HTML报告: 第一部分为该数据集总览,以及该数据集可能出现问题列表 第二部分为每一列总结。

2.8K40

整理了25个Pandas实用技巧(下)

为了找出每一列中有多少是缺失,你可以使用isna()函数,然后再使用sum(): isna()会产生一个True和False组成DataFrame,sum()会将所有True转换为1,False...如果你想要舍弃那些包含了缺失,你可以使用dropna()函数: 或者你想要舍弃那么缺失占比超过10%,你可以给dropna()设置一个阈值: len(ufo)返回总行数,我们将它乘以0.9...一个字符串划分成多 我们先创建另一个示例DataFrame: 如果我们需要将“name”这一列划分为三个独立,用来表示first, middle, last name呢?...数据透视表另一个好处是,你可以通过设置margins=True轻松地将行和都加起来: 这个结果既显示了总存活率,也显示了Sex和Passenger Class存活率。...它会返回一个互动HTML报告: 第一部分为该数据集总览,以及该数据集可能出现问题列表 第二部分为每一列总结。

2.4K10

Python pandas十分钟教程

包括如何导入数据集以及浏览,选择,清理,索引,合并和导出数据等常用操作函数使用,这是一个很好快速入门指南,如果你已经学习过pandas,那么这将是一个不错复习。...import pandas as pd pandas在默认情况下,如果数据集中有很多并非所有都会显示在输出显示中。...例如,如果数据集中有一个名为Collection_Date日期读取代码如下: pd.read_excel("Soils.xls", parse_dates = ['Collection_Date...统计某数据信息 以下是一些用来查看数据某一列信息几个函数: df['Contour'].value_counts() : 返回计算中每个出现次数。....unique():返回'Depth'唯一 df.columns:返回所有名称 选择数据 选择:如果只想选择一列,可以使用df['Group'].

9.8K50

工作中必会15个excel函数

1.统计是否有同学所有课程分数均超过60分,输入公式"=AND(B2>60,C2>60,D2>60)",按ENTER键,返回TRUE代表所有课程都超过60分,FALSE代表有课程分数低于60分,如图3...1.在表格中另起两一列为本月生日提醒,一列为本日生日提醒; 2.在“本月生日提醒”中,输入公式"=IF(MONTH(B2)=MONTH(TODAY()),"本月"&DAY(B2)&"日过生日")"...TRUE或FALSE,并返回不同。...表达式: VLOOKUP(查找,查找范围,查找数,精确或近似匹配) 实例15: 小张要做销售金额汇总表,一张表中包含是销售数量信息,另一张表中包含是销售价格,需要数量与单价相乘才可以计算金额,目前品类较多...(TIPS:vlookup函数查找条件是查找具有唯一性,如果不是唯一,默认查找到一个,有可能会发生错误。) 获取更多视频资源、和大家一起畅聊职场、学习经验可以加下群哦~

3.3K50
领券