首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Python】基于某些列删除数据框中的重复值

导入数据处理的库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径 name = pd.read_csv('name.csv...从结果知,参数为默认值时,是在原数据的copy上删除数据,保留重复数据第一条并返回新数据框。 感兴趣的可以打印name数据框,删重操作不影响name的值。...从结果知,参数keep=False,是把原数据copy一份,在copy数据框中删除全部重复数据,并返回新数据框,不影响原始数据框name。...原始数据中只有第二行和最后一行存在重复,默认保留第一条,故删除最后一条得到新数据框。 想要根据更多列数去重,可以在subset中添加列。...但是对于两列中元素顺序相反的数据框去重,drop_duplicates函数无能为力。 如需处理这种类型的数据去重问题,参见本公众号中的文章【Python】基于多列组合删除数据框中的重复值。 -end-

20.5K31

【Python】基于多列组合删除数据框中的重复值

最近公司在做关联图谱的项目,想挖掘团伙犯罪。在准备关系数据时需要根据两列组合删除数据框中的重复值,两列中元素的顺序可能是相反的。...本文介绍一句语句解决多列组合删除数据框中重复值的问题。 一、举一个小例子 在Python中有一个包含3列的数据框,希望根据列name1和name2组合(在两行中顺序不一样)消除重复项。...二、基于两列删除数据框中的重复值 1 加载数据 # coding: utf-8 import os #导入设置路径的库 import pandas as pd #导入数据处理的库...import numpy as np #导入数据处理的库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径 df =...从上图可以看出用set替换frozense会报不可哈希的错误。 三、把代码推广到多列 解决多列组合删除数据框中重复值的问题,只要把代码中取两列的代码变成多列即可。

14.7K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

    df.sort_values("col1", inplace=True) 数据输入和输出 1. 利用值构造一个数据框DataFrame 在Excel电子表格中,值可以直接输入到单元格中。...数据操作 1. 列操作 在电子表格中,公式通常在单个单元格中创建,然后拖入其他单元格以计算其他列的公式。在 Pandas 中,您可以直接对整列进行操作。...列的选择 在Excel电子表格中,您可以通过以下方式选择所需的列: 隐藏列; 删除列; 引用从一个工作表到另一个工作表的范围; 由于Excel电子表格列通常在标题行中命名,因此重命名列只需更改第一个单元格中的文本即可...按值排序 Excel电子表格中的排序,是通过排序对话框完成的。 pandas 有一个 DataFrame.sort_values() 方法,它需要一个列列表来排序。...查找和替换 Excel 查找对话框将您带到匹配的单元格。在 Pandas 中,这个操作一般是通过条件表达式一次对整个列或 DataFrame 完成。

    19.6K20

    7道题,测测你的职场技能

    在日常工作中,对于敏感的数据需要进行临时隐藏,有人可能会将字体设置为白色,其实这是非常不专业的,一旦excel被填充了其他颜色,白色字体就立马暴露无遗。在这里我们可以通过自定义数据格式来实现。...在“设置单元格格式”对话框中,我们可以看到文本的数字格式代码为@。 既然@代表一个文本占位符,那么,如果想文本重复显示,是不是重复@就能实现呢?...我们手动把“猴子”的数字格式代码@改为@@@@@@(想重复显示多少次就多少个@),然后,就看到,虽然只输入了一个“猴子”但却显示出了N个“猴子”。...所以,当输入类似“56”,却想显示为“0056”的时候,可以在“设置单元格格式”对话框中,把数字格式代码修改为“0000”即可。当输入的数字比代码的数量少时,会显示为无意义的零值。...【题目2】使用定位条件功能进行批量填充 如何使得左边的表变成右边的表呢?也就是说,如何使得多个不连续的空白单元格同时输入数据? 有人说,我输入其中一个单元格,然后复制到其他空白单元格不就可以了吗。

    3.6K11

    Pandas profiling 生成报告并部署的一站式解决方案

    Pandas 库功能非常强大,特别有助于数据分析与处理,并为几乎所有操作提供了完整的解决方案。一种常见的Pandas函数是pandas describe。...它为数据集提供报告生成,并为生成的报告提供许多功能和自定义。在本文中,我们将探索这个库,查看提供的所有功能,以及一些高级用例和集成,这些用例和集成可以对从数据框创建令人惊叹的报告!...该Overview包括总体统计的。这包括变量数(数据框的特征或列)、观察数(数据框的行)、缺失单元格、缺失单元格百分比、重复行、重复行百分比和内存中的总大小。...变量 报告的这一部分详细分析了数据集的所有变量/列/特征。显示的信息因变量的数据类型而异。 数值变量 对于数值数据类型特征,可以获得有关不同值、缺失值、最小值-最大值、平均值和负值计数的信息。...但是还有一些其他方法可以使你的报告脱颖而出。 Jupyter 笔记本中的小部件 在你的 Jupyter 笔记本中运行panda profiling时,你将仅在代码单元格中呈现 HTML。

    3.3K10

    Pandas 2.2 中文官方教程和指南(四)

    数据操作 列上的操作 在电子表格中,公式通常在单独的单元格中创建,然后通过拖动到其他单元格中以计算其他列的值。在 pandas 中,你可以直接对整列进行操作。...如果匹配了多行,则每个匹配都会有一行,而不仅仅是第一个 它将包括查找表中的所有列,而不仅仅是单个指定的列 它支持更复杂的连接操作 其他考虑事项 填充手柄 在一定的一系列单元格中创建一个遵循特定模式的数字序列...但是,您可以保存为其他文件格式。 pandas 可以创建 Excel 文件,CSV,或者其他多种格式。 从值构建 DataFrame 在电子表格中,可以直接在单元格中输入值。...数据操作 列上的操作 在电子表格中,公式通常在单个单元格中创建,然后拖动到其他单元格以计算其他列的值。在 pandas 中,您可以直接对整个列进行操作。...在电子表格中,公式通常在单独的单元格中创建,然后拖动到其他单元格中以计算其他列的值。

    31710

    Python—关于Pandas的缺失值问题(国内唯一)

    是否还有其他类型的丢失数据不太明显(无法通过Pandas轻松检测到)? 了说明我的意思,让我们开始研究示例。 我们要使用的数据是非常小的房地产数据集。...稍后我们将使用它来重命名一些缺失的值。 导入库后,我们将csv文件读取到Pandas数据框中。 使用该方法,我们可以轻松看到前几行。...这些是Pandas可以检测到的缺失值。 回到我们的原始数据集,让我们看一下“ ST_NUM”列。 ? 第三列中有一个空单元格。在第七行中,有一个“ NA”值。 显然,这些都是缺失值。...我们可以看到Pandas在空白处填充了“NA”。...从前面的示例中,我们知道Pandas将检测到第7行中的空单元格为缺失值。让我们用一些代码进行确认。

    3.2K40

    PandasGUI:使用图形用户界面分析 Pandas 数据帧

    PandasGUI 是一个库,通过提供可用于制作 安装 PandasGUI 使用pip 命令像安装任何其他 python 库一样安装 PandasGUI。...可以看到表示 NaN 值的空单元格。可以通过单击单元格并编辑其值来编辑数据。只需单击特定列即可根据特定列对数据框进行排序。在下图中,我们可以通过单击fare 列对数据框进行排序。...在 Pandas 中,我们可以使用以下命令: titanic[titanic['age'] >= 20] PandasGUI 为我们提供了过滤器,可以在其中编写查询表达式来过滤数据。...上述查询表达式将是: Pandas GUI 中的统计信息 汇总统计数据为您提供了数据分布的概览。在pandas中,我们使用describe()方法来获取数据的统计信息。...titanic.describe() 在 PandasGUI 中,可以转到统计部分并获取每列的统计信息。

    3.9K20

    我用Python展示Excel中常用的20个操

    数据删除 说明:删除指定行/列/单元格 Excel 在Excel删除数据十分简单,找到需要删除的数据右键删除即可,比如删除刚刚生成的最后一列 ?...缺失值处理 说明:对缺失值(空值)按照指定要求处理 Excel 在Excel中可以按照查找—>定位条件—>空值来快速定位数据中的空值,接着可以自己定义缺失值的填充方式,比如将缺失值用上一个数据进行填充...数据去重 说明:对重复值按照指定要求处理 Excel 在Excel中可以通过点击数据—>删除重复值按钮并选择需要去重的列即可,例如对示例数据按照创建时间列进行去重,可以发现去掉了196 个重复值,保留了...Pandas 在Pandas中可以使用.split来完成分列,但是在分列完毕后需要使用merge来将分列完的数据添加至原DataFrame,对于分列完的数据含有[]字符,我们可以使用正则或者字符串lstrip...vlookup 说明:利用VLOOKUP查找数据 Excel VLOOKUP算是EXCEL中最核心的功能之一了,我们用一个简单的数据来进行示例 ?

    5.6K10

    R数据科学-2(tidyr)

    R数据科学-2 是用于清洗数据的工具,如dplyr一样,其中每一列都是变量,每一行都是观察值,并且每个单元格都包含一个值。...“ tidyr”包含用于更改数据集的形状(旋转)和层次结构(嵌套和“取消嵌套”),将深度嵌套的列表转换为矩形数据框(“矩形”)以及从字符串列中提取值的工具。...,这里使用spread函数,spread函数涉及2个参数 df %>% spread(key, value) image.png 重复列变量 有时候会碰到,需要新增一列是重复该变量的多少次,如上述例子中..., 上海id=1的有2个,然后重复shanghai2次,5次,3次,形成新增一列。...在tidyr中很简单的uncount函数就可以实现: uncount(data, weights, .remove = TRUE, .id = NULL) df_c=df_a %>% filter(!

    97120

    Python从零开始第三章数据处理与分析python中的dplyr(4)目录

    fill:可以是'right,要么在最右边的列中填充'np.nan值来填充缺失的部分,也可以在left中填充np.nan值在最左边的列中填充。...任何非字符串的列都将转换为字符串。 unite()的参数是: *colname:新连接列的名称。 ** args:要连接的列的列表,可以是字符串,符号或列的整数位置。...*sep:用于连接列的字符串分隔符。 *remove:指示是否删除用于合并的原始列。 *na_action:可以是maintain(默认值),ignore或”as_string之一。...默认的maintain 将使新列行成为“NaN”值如果该行中的任何原始列单元格包含“NaN”。 ignore会在加入时将任何NaN值视为空字符串。...() 这样在行和列上用于合并数据框的函数。

    1.1K20

    飞速搞定数据分析与处理-day6-pandas入门教程(数据清洗)

    数据清理 数据清理意味着修复你的数据集中的坏数据。 坏的数据可能是: • 空单元格 • 格式错误的数据 • 错误的数据 • 重复的数据 在本教程中,你将学习如何处理所有这些问题。...清理空的值 空值 当你分析数据时,空的单元格有可能给你一个错误的结果。 ---- 删除行 处理空单元格的一种方法是删除包含空单元格的行。...要解决这个问题,你有两个选择:删除这些行,或者将列中的所有单元格转换成相同的格式。 转换为正确的格式 在我们的数据框架中,有两个单元格的格式是错误的。...有时,你可以通过查看数据集来发现错误的数据,因为你对它应该是什么有一个期望。如果你看一下我们的数据集,你可以看到在第7行,持续时间是450,但对于其他所有的行,持续时间是在30和60之间。...在我们的例子中,这很可能是一个打字错误,数值应该是 "45 "而不是 "450",我们可以在第7行插入 "45": df.loc[7, 'Duration'] = 45 对于小的数据集,你也许可以一个一个地替换错误的数据

    23040

    多表格文件单元格平均值计算实例解析

    每个文件的数据结构如下:任务目标我们的目标是计算所有文件中特定单元格数据的平均值。具体而言,我们将关注Category_A列中的数据,并计算每个Category_A下所有文件中相同单元格的平均值。...获取文件路径列表: 使用列表推导式获取匹配条件的文件路径列表。创建空数据框: 使用pandas创建一个空数据框,用于存储所有文件的数据。...以下是主要总结:任务背景: 文章从一个具体的实际场景出发,描述了在日常数据处理工作中可能面临的情境,即需要从多个命名规则相似的表格文件中提取信息进行复杂计算。...准备工作: 文章首先强调了在开始之前需要的准备工作,包括确保安装了Python和必要的库(例如pandas)。任务目标: 文章明确了任务的目标,即计算所有文件中特定单元格数据的平均值。...具体而言,以CSV文件为例,关注的是每个文件中的Category_A列,并计算每个类别下相同单元格的平均值。Python代码实现: 提供了一个简单的Python脚本作为解决方案。

    19000

    【Python篇】PyQt5 超详细教程——由入门到精通(中篇一)

    返回值 file_name 是用户选择的保存路径。如果用户取消操作,file_name 会是一个空字符串。...返回值 files 是用户选择的所有文件路径列表。 '\n'.join(files):将文件路径列表转换为字符串,每个文件路径之间用换行符分隔,以便在文本框中展示多个文件路径。...这里我们将创建一个 3 行 2 列的表格,并手动设置表头和每个单元格的数据。...通过 setItem() 方法,我们将每条记录中的姓名和年龄填充到相应的行和列中。 6.4 使用 pandas 与 QTableWidget 在处理大量数据时,pandas 是一个非常强大的库。...data_frame.iat[row, col] iat 是 pandas 提供的一个方法,允许我们根据行号和列号来访问 DataFrame 中的某个具体值。

    2K23

    对比Excel,一文掌握Pandas表格条件格式(可视化)

    突出显示单元格 在Excel条件格式中,突出显示单元格规则提供的是大于、小于、等于以及重复值等内置样式,不过在Pandas中这些需要通过函数方法来实现,我们放在后续介绍。...背景渐变色 在Excel中,直接通过条件格式->色阶 操作即可选择想要的背景渐变色效果 而在Pandas中,我们可以通过df.style.background_gradient()进行背景渐变色的设置...数据条 在Excel中,直接通过条件格式->数据条 操作即可选择想要的数据条效果 而在Pandas中,我们可以通过 df.style.bar()来进行数据条绘制 Signature: df.style.bar...自定义格式函数 通过传递样式函数来自定义格式: applymap() (elementwise):接受一个函数,它接受一个值并返回一个带有 CSS 属性值对的字符串。...数组,其中每个元素都是一个带有 CSS 属性的字符串-值对。

    5.1K20

    针对SAS用户:Python数据分析库pandas

    一个例子是使用频率和计数的字符串对分类数据进行分组,使用int和float作为连续值。此外,我们希望能够附加标签到列、透视数据等。 我们从介绍对象Series和DataFrame开始。...这有点类似于在SAS日志中使用PUT来检查变量值。 下面显示了size、shape和ndim属性(分别对应于,单元格个数、行/列、维数)。 ?...PROC PRINT的输出在此处不显示。 下面的单元格显示的是范围按列的输出。列列表类似于PROC PRINT中的VAR。注意此语法的双方括号。这个例子展示了按列标签切片。按行切片也可以。...解决缺失数据分析的典型SAS编程方法是,编写一个程序使用计数器变量遍历所有列,并使用IF/THEN测试缺失值。 这可以沿着下面的输出单元格中的示例行。...正如你可以从上面的单元格中的示例看到的,.fillna()函数应用于所有的DataFrame单元格。我们可能不希望将df["col2"]中的缺失值值替换为零,因为它们是字符串。

    12.1K20

    使用R或者Python编程语言完成Excel的基础操作

    Excel的中级表格操作 在Excel中除了前面提到的增删改查、排序、筛选等基本操作,Excel还提供了许多其他高级的表格处理功能,可以帮助用户更高效地分析和呈现数据。...色阶:根据单元格的值变化显示颜色的深浅。 图标集:在单元格中显示图标,以直观地表示数据的大小。 公式和函数 数组公式:对一系列数据进行复杂的计算。...在Python编程语言中 处理表格数据通常使用Pandas库,它提供了非常强大的数据结构和数据分析工具。以下是如何在Python中使用Pandas完成类似于R语言中的操作,以及一个实战案例。...Pandas提供了类似于R语言中的数据操作功能,使得数据处理变得非常直观和方便。 在Python中,处理表格数据的基础包是Pandas,但它本身已经是一个非常强大的库,提供了许多高级功能。...在实际工作中,直接使用Pandas进行数据处理是非常常见的做法,因为Pandas提供了对大型数据集进行高效操作的能力,以及丰富的数据分析功能。

    23910

    利用Pandas库实现Excel条件格式自动化

    突出显示单元格 在Excel条件格式中,突出显示单元格规则提供的是大于、小于、等于以及重复值等内置样式,不过在Pandas中这些需要通过函数方法来实现,我们放在后续介绍。...背景渐变色 在Excel中,直接通过条件格式->色阶 操作即可选择想要的背景渐变色效果 而在Pandas中,我们可以通过df.style.background_gradient()进行背景渐变色的设置...数据条 在Excel中,直接通过条件格式->数据条 操作即可选择想要的数据条效果 而在Pandas中,我们可以通过 df.style.bar()来进行数据条绘制 Signature: df.style.bar...自定义格式函数 通过传递样式函数来自定义格式: applymap() (elementwise):接受一个函数,它接受一个值并返回一个带有 CSS 属性值对的字符串。...数组,其中每个元素都是一个带有 CSS 属性的字符串-值对。

    6.3K41

    Python替代Excel Vba系列(三):pandas处理不规范数据

    但是身经百战的你肯定会觉得,前2篇例子中的数据太规范了,如果把数据导入到数据库还是可以方便解决问题的。 因此,本文将使用稍微复杂的数据做演示,充分说明 pandas 是如何灵活处理各种数据。...如下图: 其中表格中的第3行是班级。诸如"一1",表示是一年级1班,最多8个年级。 表格中的1至3列,分别表示"星期"、"上下午"、"第几节课"。 前2列有大量的合并单元格,并且数据量不一致。...---- ---- 我们来看看数据: 注意看左上角有3个 nan ,是因为表格的标题行前3列是空的。 由于前2列有合并单元格,出现了很多 nan。 此外注意看第3列,把课时序号显示成小数。...此外 pandas 中有各种内置的填充方式。 ffill 表示用上一个有效值填充。 合并单元格很多时候就是第一个有值,其他为空,ffill 填充方式刚好适合这样的情况。...如下是一个 DataFrame 的组成部分: 红框中的是 DataFrame 的值部分(values) 上方深蓝色框中是 DataFrame 的列索引(columns),注意,为什么方框不是一行?

    5K30

    这个Pandas函数可以自动爬取Web图表

    the web page attrs:传递一个字典,用其中的属性筛选出特定的表格 只需要传入url,就可以抓取网页中的所有表格,抓取表格后存到列表,列表中的每一个表格都是dataframe格式。...页面下载至本地,从而拿到所有数据;(天天基金网显示不是这种类型) 2、下一个页面的url和上一个页面的url相同,即展示所有数据的url是一样的,这样的话网页上一般会有“下一页”或“输入框”与“确认”按钮...,处理方法是将代码中触发“下一页”或“输入框”与“确认”按钮点击事件来实现翻页,从而拿到所有数据。...「decimal:」 str, 默认为 ‘.’可以识别为小数点的字符(例如,对于欧洲数据,请使用“,”)。 「converters:」 dict, 默认为 None用于在某些列中转换值的函数的字典。...键可以是整数或列标签,值是采用一个输入参数,单元格(而非列)内容并返回转换后内容的函数。 「na_values:」 iterable, 默认为 None自定义NA值。

    2.3K40
    领券