首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python】基于某些删除数据重复

导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于多组合删除数据重复') #把路径改为数据存放路径 name = pd.read_csv('name.csv...结果按照某一去重(参数为默认)是一样。 如果想保留原始数据直接用默认即可,如果想直接在原始数据删重可设置参数inplace=True。...四、按照多去重 对多去重去重类似,只是原来根据一是否重复删重。现在要根据指定判断是否存在重复(顺序也要一致才算重复)删重。...原始数据中只有第二行最后一行存在重复,默认保留第一条,故删除最后一条得到新数据。 想要根据更多数去重,可以在subset中添加。...但是对于两中元素顺序相反数据去重,drop_duplicates函数无能为力。 如需处理这种类型数据去重问题,参见本公众号中文章【Python】基于多组合删除数据重复。 -end-

18.1K31

Python】基于多组合删除数据重复

最近公司在做关联图谱项目,想挖掘团伙犯罪。在准备关系数据时需要根据两组合删除数据重复,两中元素顺序可能是相反。...本文介绍一句语句解决多组合删除数据重复问题。 一、举一个小例子 在Python中有一个包含3数据,希望根据name1name2组合(在两行中顺序不一样)消除重复项。...import numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于多组合删除数据重复') #把路径改为数据存放路径 df =...从上图可以看出用set替换frozense会报不可哈希错误。 三、把代码推广到多 解决多组合删除数据重复问题,只要把代码中取两代码变成多即可。...numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于多组合删除数据重复') #把路径改为数据存放路径 name = pd.read_csv

14.6K30
您找到你想要的搜索结果了吗?
是的
没有找到

Excel表格中最经典36个小技巧,全在这儿了

目 录 技巧1、单元格内强制换行 技巧2、锁定标题行 技巧3、打印标题行 技巧4、查找重复 技巧5、删除重复 技巧6、快速输入对号√ 技巧7、万元显示 技巧8、隐藏0 技巧9、隐藏单元格所有。...技巧4、查找重复 选取数据区域 - 开始 - 条件格式 - 突出显示单元格规则 - 重复。 ? 显示效果: ? 技巧5、删除重复 选取含重复单元格区域,数据 - 删除重复。 ?...版数据菜单 - 有效性,excel20072010版本 数据选项卡 - 数据有效性 - 数据有效性),在窗口中“设置”选项卡里选“序列”。...你试着在黄色之外区域修改或插入行/,就会弹出如下图所示提示。 ? 技巧29、文字居中显示 如果你不想合并单元格,又想让文字显示。...技巧32、解决数字不能求和 数据导入Excel中后居然是以文本形式存在(数字默认是右对齐,文本是左对齐),即使是重新设置单元格格式为数字也无济于事。

7.6K21

20个Excel操作技巧,提高你数据分析效率

EXCEL凭借其功能强大函数、可视化图表、以及整齐排列电子表格功能,使你能够快速深入洞察到数据不轻易为人所知一面。...4.多表格数据快速查找 查找替换功能都会使用,如果想要在三百张表格数据中找到想要内容应该怎么办呢?嗯简单在查找替换时候,选择工作范围按钮进行操作,如下图: ?...6.高亮显示重复 选中数字区域,之后点击开始——条件格式——突出显示单元格规则——重复即可。 ?...7.高亮显示每一数据最大 选中数据区域,点击开始——条件格式——新建规则——使用公式确定要设置格式单元格,在相应文本中输入公式=B2=MAX(B$2:B$7),然后设置填充颜色即可。 ?...9.批量计算单元格内公式 先输入一个空格,之后输入=3*8,选中区域,按Ctrl+E进行快速填充,随后按Ctrl+H打开查找替换对话,在查找中输入=,在替换中输入空格+等号,全部替换,然后在查找中输入空格

2.4K31

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

df.sort_values("col1", inplace=True) 数据输入输出 1. 利用构造一个数据DataFrame 在Excel电子表格中,可以直接输入到单元格中。...我们可以用多种不同方式构建一个DataFrame,但对于少量,通常将其指定为 Python 字典会很方便,其中键是列名,数据。...If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有低。 在Excel电子表格中,可以使用条件公式进行逻辑比较。...; 如果匹配多行,则每个匹配都会有一行,不仅仅是第一行; 它将包括查找表中所有不仅仅是单个指定; 它支持更复杂连接操作; 其他注意事项 1....查找替换 Excel 查找对话将您带到匹配单元格。在 Pandas 中,这个操作一般是通过条件表达式一次对整个或 DataFrame 完成。

19.5K20

掌握excel数据处理,提高你数据分析效率

1.ctrl+F打开“查找与替换”对话; 2.在查找对话输入李*; 3.勾选“单元格匹配”,点击确定即可。 ?...1.选择数据,单击【数据】,选择【删除重复项】,会出现【删除重复项】对话; 2.我们将“重复项”定义为所有字段内容都完全相同记录,那么在这里就要把所有都勾选上。 ?...注:如果只是把某相同记录定义为重复项那么只需要勾选那一字段即可。 3 快速删除数据 在Excel表格中,如果有很多无用空行,我们需求是想把它们全部删除。...1.点击Excel“开始”选项卡中查找选择”按钮,选择下拉菜单中“定位条件”选项; 2.打开定位条件对话后,点击“空”选项; 3.选中“空”选项后,再点击“确定”按钮; 4....5 小结 对于数据分析,Excel可以被当做一款入门软件。EXCEL凭借其功能强大函数、可视化图表、以及整齐排列电子表格功能,使你能够快速深入洞察到数据不轻易为人所知一面。

1.8K40

删除重复,不只Excel,Python pandas更行

第3行第4行包含相同用户名,但国家和城市不同。 删除重复 根据你试图实现目标,我们可以使用不同方法删除重复项。最常见两种情况是:从整个表中删除重复项或从查找唯一。...我们将了解如何使用不同技术处理这两种情况。 从整个表中删除重复Python提供了一个方法.drop_duplicates()可以帮助我们轻松删除重复项!...此方法包含以下参数: subset:引用标题,如果只考虑特定查找重复,则使用此方法,默认为所有。 keep:保留哪些重复。’...如果我们指定inplace=True,那么原始df将替换为新数据框架,并删除重复项。 图5 在列表或数据表列中查找唯一 有时,我们希望在数据框架列表中查找唯一。...图7 Python集 获取唯一另一种方法是使用Python数据结构set,集(set)基本上是一组唯一项集合。由于集只包含唯一项,如果我们将重复项传递到集中,这些重复项将自动删除。

5.9K30

你有一份面试题要查收

题目的要求是包含“长安”这两个关键字整个单元格替换成“长安保险公司”,不是部份文字变动。而且“长安”这两字可能位于开头,也可以是中间或者是结尾,这两个关键字位置不确定。...本题我们用星号通配符比较合适,选中抵押权人这一内容,Ctrl+F 快捷键打开【查找替换】对话。...在【查找选择】下拉列表中选择【定位条件】,也可以使用快捷键F5,弹出【定位】对话。 点击左下角“定位条件”按钮,弹出【定位条件】窗口。...本例最终公式为两个函数嵌套使用,具体如下: image.png 当姓名固定不变时,住宅电话在整张表第3,所以INDEX函数第三参数变成3表示在整个表格中,第1行第3就是李项住宅电话,...具体设置如下,选中要输入身份证区域,【数据验证】,打开以下对话并像以下这样设置好设置好内容: image.png 输入公式具体为: image.png 当身份证长度是是15位或者18位并且没有重复时为

2.1K11

7道题,测测你职场技能

当我们鼠标单击“显示任一单元格,在编辑栏里,我们可以看到其“内核”其实是输入一致。 例如,点击单元格C4,在编辑栏里会看到其实质输入“猴子”是一致。...在“设置单元格格式”对话中,我们可以看到文本数字格式代码为@。 既然@代表一个文本占位符,那么,如果想文本重复显示,是不是重复@就能实现呢?...有人说,我直接用【查找选择】里替换功能,把“北”字替换为“练习”不就行了吗?看清楚题意,在案例里,是把含有“北”字单元格内容进行替换,不是对一个“北”字进行替换。...通过观察籍贯,可以发现,“北”字在不同籍贯里,可能是位于第1位,也可能是位于第2位,或第5位等,总之,“北”字字符位置是不确定。 在excel里,可以使用通配符来进行模糊查找。...选中籍贯,Ctrl+F 快捷键打开【查找替换】对话,在“查找内容”里输入“*北*”,在“替换为”对话里输入“练习”,再点击【全部替换】。

3.6K11

【Mark一下】46个常用 Pandas 方法速查表

方法用途示例示例说明info查看数据索引类型、费控设置内存用量信息。...例如可以从dtype返回中仅获取类型为bool。 3 数据切片切块 数据切片切块是使用不同或索引切分数据,实现从数据中获取特定子集方式。...4 数据筛选过滤 数据筛选过滤是基于条件数据选择,本章2.6.3提到比较运算符都能用于数据筛选选择条件,不同条件间逻辑不能直接用and、or来实现且、或逻辑,而是要用&|实现。...a或col3为True记录使用isin查找范围基于特定范围数据查找In: print(data2[data2['col1'].isin([1,2])]) Out: col1 col2...,默认计算方式为求均值 8 高级函数使用 Pandas能直接实现数据级别高级函数应用,不用写循环遍历每条记录甚至每个后做计算,这种方式能极大提升计算效率,具体如表8所示: 表8 Pandas

4.7K20

超强Python『向量化』数据处理提速攻略

简而言之,向量化是一种同时操作整个数组不是一次操作一个元素方法,这也得益于Numpy数组。 我们先导入测试数据: 第一次向量化测试: 以这个函数为例。...或者使用如下方法: 接下来,我们尝试一下使用向量化。将整个Series作为参数传递到函数中,不是对每一行。 但没有成功。...vectorize()主要是为了方便,不是为了性能。实质上是一个for loop。 我们可以使用一种方式,包装我们之前函数,在我们传递时不起作用函数,并向量化它。...代码如下: 如果添加了.values: 4 更复杂 有时必须使用字符串,有条件地从字典中查找内容,比较日期,有时甚至需要比较其他行。我们来看看!...向量化所需要所有函数都是在同一行上比较,这可以使用pandas.shift()实现! 确保你数据正确排序,否则你结果就没有意义! 很慢!

6.3K41

独家 | 用于数据清理顶级R包(附资源)

纠正错误 R有许多预先构建方法来纠正数据错误,例如转换,就像在Excel或SQL中那样,使用简单逻辑,例如as.charater()将转换为字符串。...它与plyr包非常相似,虽然年龄较大,但有些用户只是觉得它使用更容易,功能也更标准化。 sqldf包 很多R用户更习惯用SQL语言不是R编码。...这个函数允许你在R studio中编写SQL代码来选择你数据元素 Janitor包 该软件包能够通过多个查找重复项,并轻松地从您数据中创建友好。...它甚至还有一个get_dupes()函数,用于在多行数据查找重复。如果您希望以更高级方式重复数据删除,例如,查找不同组合或使用模糊逻辑,您可能需要查看重复数据删除工具。...splitstackshape包 这是一个较旧包,可以使用数据逗号分隔。用于调查或文本分析准备。 R拥有大量软件包,本文只是触及了它可以做事情表面。

1.3K21

看图学NumPy:掌握n维数组基础知识点,看这一篇就够了

从NumPy数组中获取数据另一种超级有用方法是布尔索引,它允许使用各种逻辑运算符,来检索符合条件元素: ? 注意:Python三元比较3<=a<=5在NumPy数组中不起作用。...axis参数 在许多操作(例如求和)中,我们需要告诉NumPy是否要跨行或进行操作。...但是当涉及一维数组与矩阵之间混合堆叠时,vstack可以正常工作:hstack会出现尺寸不匹配错误。 因为如上所述,一维数组被解释为行向量,不是向量。...fromfunction如上所述,仅使用IJ参数一次调用提供函数。 但是实际上,在NumPy中有一种更好方法。无需在整个矩阵上耗费存储空间。...allany两个函数也能使用axis参数: ? 矩阵排序 尽管axis参数对上面列出函数很有用,但对二维排序却没有帮助: ? axis绝不是Python列表key参数替代。

6K20

遇到复杂业务查询,怎么办?

1.制作下拉列表 第1步:A机构名称有很多是重复,把这一复制到表格空白处,然后删除重复后,发现这一机构名称只有A、B、C共3家。...在Excel表空白地方,写上A机构、B机构、C机构,用于后面制作下拉列表里(下图)。这样做目的是防止重复出现在下拉列表里。...同样道理,如果B利率档没有重复在创作下拉时可以直接作为数据验证对话来源。 如果有重复的话,机构处理方式一样,在表格空白处写上这一删除重复利率作为数据验证对话来源。...INDEX函数能根据指定行号号来返回一个,用法如下: image.png 例如在这个案例中,想要查找A机构,利率档是40%,24期费用是976元,那么对应公式是: =INDEX(A2:E17,1,3...由于是多条件查询,INDEXMATCH均不是数组公式,要同时按下【ctrl+shift+enter】才能显示正确答案。 这又涉及到另一个问题,什么是数组?

1.6K10

Python代码实操:详解数据清洗

导读:此前文章《一文看懂数据清洗:缺失、异常值重复处理》中,我们介绍了数据清洗过程方法,本文给出各步骤详细代码,方便你动手操作。...() 方法来查找含有至少1个或全部缺失,其中 any() 方法用来返回指定轴中任何元素为 True, all() 方法用来返回指定轴所有元素都为 True。...在判断逻辑中,对每一数据进行使用自定义方法做Z-Score标准化得分计算,然后与阈值2.2做比较,如果大于阈值则为异常。...判断方法为 df.duplicated(),该方法中两个主要参数是 subset keep。 subset:要判断重复,可以指定特定或多个。默认使用全部。...重复判断相对简单,判断之后如何处理往往不是一个技术特征明显工作,而是侧重于业务建模需求工作。

4.8K20

手把手 | 如何用Python做自动化特征工程

特征选取恰恰是机器学习重要先期步骤,虽然不如模型训练那样能产生直接可用结果。本文作者将使用Pythonfeaturetools库进行自动化特征工程示例。...转换作用于单个表(从Python角度来看,表只是一个Pandas 数据),它通过一个或多个现有的创建新特征。 例如,如果我们有如下客户表。...我们可以通过查找joined月份或是获取income自然对数来创建特征。这些都是转换,因为它们仅使用来自一个表信息。...每个实体都必须有一个索引,该索引是一个包含所有唯一元素。也就是说,索引中每个只能出现在表中一次。 clients数据索引是client_id,因为每个客户在此数据中只有一行。...聚合就是将深度特征合成依次将特征基元堆叠 ,利用了表之间一对多关系,转换是应用于单个表中一个或多个函数,从多个表构建新特征。

4.3K10

pandas 入门 1 :数据创建和绘制

除非另有指明,否则文件将保存在运行环境下相同位置。 df.to_csv? 我们将使用唯一参数是索引标头。将这些参数设置为False将阻止导出索引标头名称。...对数据进行排序并选择顶行 使用max()属性查找最大 # Method 1: Sorted = df.sort_values(['Births'], ascending=False) Sorted.head...与该表一起,最终用户清楚地了解Mel是数据集中最受欢迎婴儿名称。plot()是一个方便属性,pandas可以让您轻松地在数据中绘制数据。我们学习了如何在上一节中找到Births最大。...解释一下:df ['Names'] - 这是婴儿名字整个列表,整个名字栏 df ['Births'] - 这是1880年整个出生列表,整个出生 df['Births'].max() - 这是Births...最大 [df['Births'] == df['Births'].max()] 等于 [查找出生中等于973所有记录] df ['Names'] [df [' Births'] == df

6.1K10

目标检测系列之一(候选框、IOU、NMS)

计算机视觉三大任务是图像分类、目标检测目标分割。...基于候选区域两阶段算法在检测准确性定位精度上有优势,一阶段算法在运算速度上占优势。 我们首先介绍一些目标检测涉及到名词理解,如候选框、IOU交并比、NMS非极大抑制等。...这个方法有一个缺点,因为我不知道目标的大小,设置不同大小窗口对候选框查找结果有很大影响,而且滑动窗步长太小会产生过多候选框,带来很大计算量,步长太大又容易错过精确目标候选框,对于实时性速度要求较高时不推荐使用滑窗法...NMS(Non-Maximun Suppression)非极大抑制就是抑制不是极大元素。...; 3)依次对得分越来越小候选框重复步骤②,同样剔除IOU得分较小候选框; 4)重复步骤③直到遍历完该所有建议; 5)遍历完2000×20维矩阵所有,即所有物体种类都做一遍非极大抑制; Python

5.5K10
领券