首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Python】基于组合删除数据重复值

本文介绍一句语句解决组合删除数据中重复值问题。 一、举一个小例子 在Python中有一个包含3数据,希望根据name1和name2组合(在两行中顺序不一样)消除重复项。...二、基于两删除数据重复值 1 加载数据 # coding: utf-8 import os #导入设置路径库 import pandas as pd #导入数据处理库...import numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于组合删除数据重复值') #把路径改为数据存放路径 df =...从上图可以看出用set替换frozense会报不可哈希错误。 三、把代码推广到 解决组合删除数据中重复值问题,只要把代码中取两代码变成即可。...numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于组合删除数据重复值') #把路径改为数据存放路径 name = pd.read_csv

14.6K30
您找到你想要的搜索结果了吗?
是的
没有找到

pandas新版本增强功能,数据频率统计

更多 Python 数据处理干货,敬请关注!!!! 前言 pandas 在1.0版本发布后,更新频率非常高,今天我们看看关于频率统计一个新方法。...---- 频率统计 pandas 以前版本(1.1以前)中,就已经存在单列频率统计。...image-20200806092901143 通过参数 normalize 可以转换成占比 但是,以上都是针对单列统计,很多时候我们希望对组合频率统计。...---- 数据频率统计 现在,pandas 1.1 版本中已为 DataFrame 追加了同名方法 value_counts,下面来看看怎么使用。...下面,我们就来看看"自己做主"优势 ---- 分段统计 之前在讲解单列频率统计(Series.value_counts)时,其实遗漏了一个挺有用参数,对于数值型才能使用

1.6K20

懂Excel就能轻松入门Python数据分析包pandas(十二):堆叠

> 经常听别人说 Python 在数据领域有厉害,结果学了很长时间,连数据处理都麻烦得要死。...后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 Excel 是奇葩不规范数据重灾区,这主要是因为他有高度灵活性,今天来看看一个堆叠问题。...现在来看看,在 pandas 中怎么简单转换成规范2数据: - 第一句主要是为了最后结果标题与原数据标题一致而已 - 关键是第二句,这里直接使用 numpy reshape 方法,即可完成需求...- .reshape(-1,2) ,其中2就是2,而 -1 是让 numpy 你根据数据来计算最终行数 - 第三句,只是把结果数组变为一个 DataFrame - 至于最后 dropna ,...用 pandas 不就是为了既可自动化处理,又可以少写点代码吗 总结 - numpy reshape 方法,可以快速把数组转换成指定行数或数 - 用 -1 可以让 numpy 自动计算行或数量

70710

懂Excel就能轻松入门Python数据分析包pandas(十二):堆叠

> 经常听别人说 Python 在数据领域有厉害,结果学了很长时间,连数据处理都麻烦得要死。...后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 Excel 是奇葩不规范数据重灾区,这主要是因为他有高度灵活性,今天来看看一个堆叠问题。...现在来看看,在 pandas 中怎么简单转换成规范2数据: - 第一句主要是为了最后结果标题与原数据标题一致而已 - 关键是第二句,这里直接使用 numpy reshape 方法,即可完成需求...- .reshape(-1,2) ,其中2就是2,而 -1 是让 numpy 你根据数据来计算最终行数 - 第三句,只是把结果数组变为一个 DataFrame - 至于最后 dropna ,...用 pandas 不就是为了既可自动化处理,又可以少写点代码吗 总结 - numpy reshape 方法,可以快速把数组转换成指定行数或数 - 用 -1 可以让 numpy 自动计算行或数量

78320

Pandas基础使用系列---获取行和

前言我们上篇文章简单介绍了如何获取行和数据,今天我们一起来看看两个如何结合起来用。获取指定行和指定数据我们依然使用之前数据。...我们先看看如何通过切片方法获取指定所有行数据info = df.loc[:, ["2021年", "2017年"]]我们注意到,行位置我们使用类似python中切片语法。...大家还记得它们区别吗?可以看看上一篇文章内容。同样我们可以利用切片方法获取类似前4这样数据df.iloc[:, :4]由于我们没有指定行名称,所有指标这一也计算在内了。...如果要使用索引方式,要使用下面这段代码df.iloc[2, 2]是不是很简单,接下来我们再看看如何获取多行。为了更好演示,咱们这次指定索引df = pd.read_excel("...../data/年度数据.xls", skiprows=skip_rows, index_col=0)然后,通过下面这段代码获取多行df.loc[["市辖区数(个)", "镇数(个)"], ["2021

55800

Excel与pandas使用applymap()创建复杂计算

标签:Python与Excel,pandas 我们之前讨论了如何在pandas中创建计算,并讲解了一些简单示例。...记住,我们永远不应该循环遍历pandas数据框架/系列,因为如果我们有一个大数据集,这样做效率很低。...pandas applymap()方法 pandas提供了一种将自定义函数应用于或整个数据框架简单方法,就是.applymap()方法,这有点类似于map()函数作用。...注意下面的代码,我们只在包含平均值上应用函数。因为我们知道第一包含字符串,如果我们尝试对字符串数据应用letter_grade()函数,可能会遇到错误。...图3 我们仍然可以使用map()函数来转换分数等级,但是,需要在三每一上分别使用map(),而applymap()能够覆盖整个数据框架()。

3.8K10

使用Pandas完成data数据处理,按照数据中元素出现先后顺序进行分组排列

一、前言 前几天在Python钻石交流群【瑜亮老师】给大家出了一道Pandas数据处理题目,使用Pandas完成下面的数据操作:把data元素,按照它们出现先后顺序进行分组排列,结果如new中展示...new列为data分组排序后结果 print(df) 结果如下图所示: 二、实现过程 方法一 这里【猫药师Kelly】给出了一个解答,代码和结果如下图所示。...(*([k]*v for k, v in Counter(df['data']).items()))] print(df) 运行之后,结果如下图所示: 方法四 这里【月神】给出了三个方法,下面展示这个方法和上面两个方法思路是一样...这篇文章主要盘点了使用Pandas完成data数据处理,按照数据中元素出现先后顺序进行分组排列问题,文中针对该问题给出了具体解析和代码演示,一共6个方法,欢迎一起学习交流,我相信还有其他方法,...【月神】和【瑜亮老师】太强了,这个里边东西还是很多,可以学习很多。

2.3K10

学徒讨论-在数据里面使用平均值替换NA

最近学徒群在讨论一个需求,就是用数据每一平均数替换每一NA值。但是问题提出者自己代码是错,如下: ? 他认为替换不干净,应该是循环有问题。...#我好像试着写出来了,上面的这个将每一NA替换成每一平均值。 #代码如下,请各位老师瞅瞅有没有毛病。...:我是这么想,也不知道对不对,希望各位老师能指正一下:因为tmp数据中,NA个数不唯一,我还想获取他们横坐标的话,输出结果就为一个list而不是一个数据了。...答案二:使用Hmiscimpute函数 我给出点评是:这样偷懒大法好!使用Hmiscimpute函数可以输入指定值来替代NA值做简单插补,平均数、中位数、众数。...,就数据长-宽转换!

3.6K20

seaborn可视化数据多个元素

seaborn提供了一个快速展示数据库中元素分布和相互关系函数,即pairplot函数,该函数会自动选取数据中值为数字元素,通过方阵形式展现其分布和关系,其中对角线用于展示各个元素分布情况...,剩余空间则展示每两个元素之间关系,基本用法如下 >>> df = pd.read_csv("penguins.csv") >>> sns.pairplot(df) >>> plt.show()...函数自动选了数据3元素进行可视化,对角线上,以直方图形式展示每元素分布,而关于对角线堆成上,下半角则用于可视化两之间关系,默认可视化形式是散点图,该函数常用参数有以下几个 ###...#### 3、 x_vars和y_vars 默认情况下,程序会对数据中所有的数值进行可视化,通过x_vars和y_vars可以用列名称来指定我们需要可视化,用法如下 >>> sns.pairplot...通过pairpplot函数,可以同时展示数据多个数值型元素关系,在快速探究一组数据分布时,非常好用。

5.2K31

pandasloc和iloc_pandas获取指定数据行和

大家好,又见面了,我是你们朋友全栈君 实际操作中我们经常需要寻找数据某行或者某,这里介绍我在使用Pandas时用到两种方法:iloc和loc。...目录 1.loc方法 (1)读取第二行值 (2)读取第二值 (3)同时读取某行某 (4)读取DataFrame某个区域 (5)根据条件读取 (6)也可以进行切片操作 2.iloc方法 (1)...读取第二行值 (2)读取第二行值 (3)同时读取某行某 (4)进行切片操作 ---- loc:通过行、名称或标签来索引 iloc:通过行、索引位置来寻找数据 首先,我们先创建一个...Dataframe,生成数据,用于下面的演示 import pandas as pd import numpy as np # 生成DataFrame data = pd.DataFrame(np.arange...[1,:] (2)读取第二值 # 读取第二全部值 data2 = data.loc[ : ,"B"] 结果: (3)同时读取某行某 # 读取第1行,第B对应值 data3

8.3K21

对比Excel,Python pandas删除数据框架中

标签:Python与Excel,pandas 删除也是Excel中常用操作之一,可以通过功能区或者快捷菜单中命令或者快捷键来实现。...上一篇文章,我们讲解了Python pandas删除数据框架中行一些方法,删除与之类似。然而,这里想介绍一些新方法。取决于实际情况,正确地使用一种方法可能比另一种更好。...准备数据框架 创建用于演示删除数据框架,仍然使用前面给出“用户.xlsx”中数据。 图1 .drop()方法 与删除行类似,我们也可以使用.drop()删除。...唯一区别是,在该方法中,我们需要指定参数axis=1。下面是.drop()方法一些说明: 要删除单列:传入列名(字符串)。 删除:传入要删除名称列表。...如果要覆盖原始数据框架,则要包含参数inplace=True。 图2 del方法 del是Python中一个关键字,可用于删除对象。我们可以使用它从数据框架中删除

7.1K20

Pandas中更改数据类型【方法总结】

例如,上面的例子,如何将2和3转为浮点数?有没有办法将数据转换为DataFrame格式时指定类型?或者是创建DataFrame,然后通过某种方法更改每类型?...如果遇到无效值,第三个选项就是忽略该操作: >>> pd.to_numeric(s, errors='ignore') # the original Series is returned untouched 对于或者整个...DataFrame 如果想要将这个操作应用到多个,依次处理每一是非常繁琐,所以可以使用DataFrame.apply处理每一。...软转换——类型自动推断 版本0.21.0引入了infer_objects()方法,用于将具有对象数据类型DataFrame转换为更具体类型。...']}, dtype='object') >>> df.dtypes a object b object dtype: object 然后使用infer_objects(),可以将’a’类型更改为

20.2K30
领券