首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Python】基于某些删除数据重复

subset:用来指定特定,根据指定数据去重。默认为None,即DataFrame中一行元素全部相同时才去除。...导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于组合删除数据重复') #把路径改为数据存放路径 name = pd.read_csv('name.csv...从结果知,参数为默认时,是在原数据copy上删除数据,保留重复数据第一条并返回新数据。 感兴趣可以打印name数据,删重操作不影响name。...结果和按照某一去重(参数为默认)是一样。 如果想保留原始数据直接用默认即可,如果想直接在原始数据删重可设置参数inplace=True。...但是对于两中元素顺序相反数据去重,drop_duplicates函数无能为力。 如需处理这种类型数据去重问题,参见本公众号中文章【Python】基于组合删除数据重复。 -end-

18.1K31

【Python】基于组合删除数据重复

最近公司在做关联图谱项目,想挖掘团伙犯罪。在准备关系数据时需要根据两组合删除数据重复,两中元素顺序可能是相反。...本文介绍一句语句解决多组合删除数据中重复问题。 一、举一个小例子 在Python中有一个包含3数据,希望根据name1和name2组合(在两行中顺序不一样)消除重复项。...二、基于删除数据重复 1 加载数据 # coding: utf-8 import os #导入设置路径库 import pandas as pd #导入数据处理库...import numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于组合删除数据重复') #把路径改为数据存放路径 df =...numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于组合删除数据重复') #把路径改为数据存放路径 name = pd.read_csv

14.6K30
您找到你想要的搜索结果了吗?
是的
没有找到

Excel公式技巧73:获取一长度最大数据

在《Excel公式技巧72:获取一中单元格内容最大长度》中,我们使用一个简单数组公式: =MAX(LEN(B3:B12)) 获取一中单元格内容最长文本长度。...那么,这个最长文本是什么呢?我们如何使用公式获取长度最长文本数据?有了前面的基础后,这不难实现。...图1 我们已经知道,公式中: MAX(LEN(B3:B12)) 得到单元格区域中最长单元格长度:12 公式中: LEN(B3:B12) 生成由单元格区域中各单元格长度组成数组: {7;6;4...;5;12;6;3;6;1;3} 将上述结果作为MATCH函数参数,找到最大长度所在位置: MATCH(MAX(LEN(B3:B12)),LEN(B3:B12),0) 转换为: MATCH(12,...“数据”,则公式如下图2所示。

5.4K10

用过Excel,就会获取pandas数据框架中、行和

在Python中,数据存储在计算机内存中(即,用户不能直接看到),幸运pandas库提供了获取值、行和简单方法。 先准备一个数据框架,这样我们就有一些要处理东西了。...df.columns 提供(标题)名称列表。 df.shape 显示数据框架维度,在本例中为4行5。 图3 使用pandas获取 有几种方法可以在pandas中获取。...语法如下: df.loc[行,] 其中,是可选,如果留空,我们可以得到整行。由于Python使用基于0索引,因此df.loc[0]返回数据框架第一行。...在pandas中,这类似于如何索引/切片Python列表。 要获取前三行,可以执行以下操作: 图8 使用pandas获取单元格 要获取单个单元格,我们需要使用行和交集。...接着,.loc[[1,3]]返回该数据框架第1行和第4行。 .loc[]方法 正如前面所述,.loc语法是df.loc[行,],需要提醒行(索引)和可能是什么?

18.9K60

盘点使用Pandas解决问题:对比两数据取最大5个方法

一、前言 前几天在Python星耀交流群有个叫【iLost】粉丝问了一个关于使用pandas解决两数据对比问题,这里拿出来给大家分享下,一起学习。...大概意思是说在DF中有2数据,想每行取两数据最大,形成一个新,该怎么写?最开始【iLost】自己使用了循环方法写出了代码,当然是可行,但是写就比较难受了。...二、解决过程 这里给出5个方法,感谢大佬们解答,一起来看看吧! 方法一:【月神】解答 其实这个题目的逻辑和思路也相对简单,但是对于Pandas不熟悉小伙伴,接受起来就有点难了。...使用numpy结合pandas,代码如下: df['max4'] = np.where(df['cell1'] > df['cell2'],df['cell1'], df['cell2']) df...这篇文章基于粉丝提问,针对df中,想在每行取两数据最大,作为新问题,给出了具体说明和演示,一共5个方法,顺利地帮助粉丝解决了问题,也帮助大家玩转Pandas,学习Python相关知识。

4K30

pandas参数设置小技巧

2 设置DataFrame最大显示数 类似display.max_rows,通过修改display.max_columns我们可以调节最大显示数据数(默认是20),这在我们数据字段较多又想全部查看时候很有用...: 图3 3 设置每最大显示宽度 对于一些单元格内容长度较长数据譬如长文本,在查看数据时过长部分会被简化为省略号,而通过修改display.max_colwidth参数我们可以在必要时,使得超长部分也显示出来...参数我们可以设置浮点数显示格式,譬如这里我们给浮点数加上¥前缀并设定保留两位小数: 图6 6 设置info()方法中非缺失检查行数上限 针对数据info()方法可以帮助我们查看数据一些概览信息...,譬如每一对应非缺失个数。...但默认情况下当数据行数大于1690784行时,再查看info()信息,会处于计算效率考虑略去缺失检查信息。

1K10

pandas参数设置小技巧

2 设置DataFrame最大显示数   类似display.max_rows,通过修改display.max_columns我们可以调节最大显示数据数(默认是20),这在我们数据字段较多又想全部查看时候很有用...图3 3 设置每最大显示宽度   对于一些单元格内容长度较长数据譬如长文本,在查看数据时过长部分会被简化为省略号,而通过修改display.max_colwidth参数我们可以在必要时,使得超长部分也显示出来...图4 4 指定小于某个数元素显示为0   通过display.chop_threshold参数我们在不修改原始数据情况下,指定数据中绝对小于阈值数显示为0: ?...图6 6 设置info()方法中非缺失检查行数上限   针对数据info()方法可以帮助我们查看数据一些概览信息,譬如每一对应非缺失个数。   ...但默认情况下当数据行数大于1690784行时,再查看info()信息,会处于计算效率考虑略去缺失检查信息。

1.2K20

Pandas常用命令汇总,建议收藏!

Pandas中处理数据时,我们可以使用多种方法来查看和检查对象,例如 DataFrame和Series。...] # 根据条件选择数据行和 df.loc[df['column_name'] > 5, ['column_name1', 'column_name2']] / 04 / 数据清洗 数据清洗是数据预处理阶段重要步骤...# 检查缺失 df.isnull() # 删除有缺失行 df.dropna() # 用特定填充缺失 df.fillna(value) # 插入缺失 df.interpolate()...')['other_column'].sum().reset_index() / 06 / 加入/合并 在pandas中,你可以使用各种函数基于公共或索引来连接或组合多个DataFrame。...# 计算某最大 df['column_name'].max() # 计算某中非空数量 df['column_name'].count() # 计算中某个出现次数 df['column_name

36210

30 个 Python 函数,加速你数据分析处理速度!

.where 函数 它用于根据条件替换行或。...我们可能需要检查唯一类别的数量。我们可以检查计数函数返回序列大小或使用 nunique 函数。...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多小数点。...ser= pd.Series([2,4,5,6,72,4,6,72]) ser.pct_change() 29.基于字符串筛选 我们可能需要根据文本数据(如客户名称)筛选观测(行)。...30.设置数据帧样式 我们可以通过使用返回 Style 对象 Style 属性来实现此目的,它提供了许多用于格式化和显示数据选项。例如,我们可以突出显示最小或最大

8.9K60

【Mark一下】46个常用 Pandas 方法速查表

数据与R中DataFrame格式类似,都是一个二维数组。Series则是一个一维数组,类似于列表。数据Pandas中最常用数据组织方式和对象。...,列名为字典3个key,每一为key对应value 2 查看数据信息 查看信息常用方法包括对总体概况、描述性统计信息、数据类型和数据样本查看,具体如表2所示: 表2 Pandas常用查看数据信息方法汇总...4 数据筛选和过滤 数据筛选和过滤是基于条件数据选择,本章2.6.3提到比较运算符都能用于数据筛选和选择条件,不同条件逻辑不能直接用and、or来实现且、或逻辑,而是要用&和|实现。...Out: col1 col2 col3 0 2 a True 1 1 b True选择col3中为True所有记录多条件以所有的列为基础选择符合条件数据...'col2=="b"')) Out: col1 col2 col3 1 1 b 1筛选数据中col2为b记录 5 数据预处理操作 Pandas数据预处理基于整个数据

4.7K20

numpy和pandas库实战——批量得到文件夹下多个CSV文件中第一数据并求其最

2、现在我们想对第一或者第二数据进行操作,以最大和最小求取为例,这里以第一为目标数据,来进行求值。 ?...通常我们通过Python来处理数据,用比较多两个库就是numpy和pandas,在本篇文章中,将分别利用两个库来进行操作。...3、其中使用pandas库来实现读取文件夹下多个CSV文件中第一数据并求其最大和最小代码如下图所示。 ? 4、通过pandas库求取结果如下图所示。 ?...通过该方法,便可以快速取到文件夹下所有文件第一最大和最小。 5、下面使用numpy库来实现读取文件夹下多个CSV文件中第一数据并求其最大和最小代码如下图所示。 ?.../小结/ 本文基于Python,使用numpy库和pandas库实现了读取文件夹下多个CSV文件,并求取文件中第一数据最大和最小,当然除了这两种方法之外,肯定还有其他方法也可以做得到,欢迎大家积极探讨

9.3K20

时间序列数据处理,不再使用pandas

而对于多变量时间序列,则可以使用带有多二维 Pandas DataFrame。然而,对于带有概率预测时间序列,在每个周期都有多个情况下,情况又如何呢?...: (4): 商店销售额曲线图 检查一下时间索引,它是一个 Pandas DateTimeIndex。...维度:多元序列 ""。 样本:和时间。在图(A)中,第一周期为 [10,15,18]。这不是一个单一,而是一个列表。...一共有 45 个商店,因此飞镖数据 darts_group_df 长度为 45。每个商店有 143 周,因此商店 1 darts_group_df[0] 长度为 143。...比如一周内商店概率预测,无法存储在二维Pandas数据中,可以将数据输出到Numpy数组中。

10610

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

df.sort_values("col1", inplace=True) 数据输入和输出 1. 利用构造一个数据DataFrame 在Excel电子表格中,可以直接输入到单元格中。...在 Pandas 中,您使用特殊方法从/向 Excel 文件读取和写入。 让我们首先基于上面示例中数据,创建一个新 Excel 文件。 tips.to_excel("....If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有低和高。 在Excel电子表格中,可以使用条件公式进行逻辑比较。...按排序 Excel电子表格中排序,是通过排序对话完成pandas 有一个 DataFrame.sort_values() 方法,它需要一个列表来排序。...查找和替换 Excel 查找对话将您带到匹配单元格。在 Pandas 中,这个操作一般是通过条件表达式一次对整个或 DataFrame 完成。

19.5K20

对比Excel,更强大Python pandas筛选

准备用于演示数据框架 同样,我们使用原来用过世界500强数据集。首先,我们将激活pandas并从百度百科加载数据。...我们传递给loc[]条件:df['总部所在国家'] == '中国',实际上是一个布尔索引,它是一个True或False列表。...看看下面的Excel屏幕截图,添加了一个新,名为“是否中国”,还使用了一个简单IF公式来评估一行是否“总部所在国家”为中国,该公式返回1或0。实际上,我正在检查每一行。...完成公式检查后,我可以筛选”是否中国”,然后选择为1所有行。 图3 Python使用了一种类似的方法,让我们来看看布尔索引到底是什么。 图4 注意上面代码片段底部——长度:500。...上面的代码行创建了一个列表,该列表长度数据框架本身相同,并用True或False填充。这基本上就是我们在Excel中所做

3.9K20

5个例子学会Pandas字符串过滤

要处理文本数据,需要比数字类型数据更多清理步骤。为了从文本数据中提取有用和信息,通常需要执行几个预处理和过滤步骤。 Pandas 库有许多可以轻松简单地处理文本数据函数和方法。...在本文中,我介绍将学习 5 种可用于过滤文本数据(即字符串)不同方法: 是否包含一系列字符 求字符串长度 判断以特定字符序列开始或结束 判断字符为数字或字母数字 查找特定字符序列出现次数 首先我们导入库和数据...import pandas as pd df = pd.read_csv("example.csv") df 我们这个样例DataFrame 包含 6 行和 4 。...4 1 5 0 Name: description, dtype: int64 如果想使用它进行条件过滤,只需将其与一个进行比较,如下所示: df[df["description"...].str.count("used") < 1] 非常简单吧 本文介绍了基于字符串 5 种不同 Pandas DataFrames 方式。

2K20

Python3分析CSV数据

2.2 筛选特定行 在输入文件筛选出特定行三种方法: 行中满足某个条件 行中属于某个集合 行中匹配正则表达式 从输入文件中筛选出特定行通用代码结构: for row in filereader...需要在逗号前设定行筛选条件,在逗号后设定筛选条件。 例如,loc函数条件设置为:Supplier Name中姓名包含 Z,或者Cost大于600.0,并且需要所有的。...基本过程就是将每个输入文件读取到pandas数据中,将所有数据追加到一个数据列表,然后使用concat 函数将所有数据连接成一个数据。...如果你需要平行连接数据,那么就在concat 函数中设置axis=1。除了数据pandas 中还有一个数据容器,称为序列。你可以使用同样语法去连接序列,只是要将连接对象由数据改为序列。...有时候,除了简单地垂直或平行连接数据,你还需要基于数据集中关键字来连接数据集。pandas 提供了类似SQL join 操作merge 函数。

6.6K10

数据科学学习手札06)Python在数据操作上总结(初级篇)

,储存对两个数据中重复非联结键进行重命名后缀,默认为('_x','_y') indicator:是否生成一_merge,来为合并后每行标记其中数据来源,有left_only,right_only...;'outer'表示以两个数据联结键并作为新数据行数依据,缺失则填充缺省  lsuffix:对左侧数据重复列重命名后缀名 rsuffix:对右侧数据重复列重命名后缀名 sort:表示是否以联结键所在列为排序依据对合并后数据进行排序...,默认不放回,即False weights:根据axis方向来定义该方向上各行或入样概率,长度需与对应行或数目相等,当权重之和不为0时,会自动映射为和为1 a = [i for i in range...7.数据条件筛选 在日常数据分析工作中,经常会遇到要抽取具有某些限定条件样本来进行分析,在SQL中我们可以使用Select语句来选择,而在pandas中,也有几种相类似的方法: 方法1: A =...型变量 df.notnull():与isnull()方法返回相反 '''创造含有缺失数据''' import pandas as pd left = pd.DataFrame({'A': ['

14.2K51

没错,这篇文章教你妙用Pandas轻松处理大规模数据

编译 | AI科技大本营(rgznai100) 参与 | 周翔 注:Pandas(Python Data Analysis Library) 是基于 NumPy 一种工具,该工具是为了解决数据分析任务而创建...在这篇文章中,我们将介绍 Pandas 内存使用情况,以及如何通过为数据(dataframe)中(column)选择适当数据类型,将数据内存占用量减少近 90%。...数据内部表示 在底层,Pandas 按照数据类型将分成不同块(blocks)。这是 Pandas 如何存储数据前十二预览。 你会注意到这些数据块不会保留对列名引用。...因为不同数据都是单独存储,所以我们将检查不同类型数据内存使用情况。我们先来看看所有数据类型平均内存使用情况。 可以看到,大部分内存都被 78 个对象占用了。...我们将编写一个循环程序,遍历每个对象检查其唯一数量是否小于 50%。如果是,那么我们就将这一转换为 category 类型。

3.6K40

数据科学学习手札92)利用query()与eval()优化pandas代码

图1 2 基于query()高效查询 query()顾名思义,是pandas中专门执行数据查询API,其实早在2014年,pandas0.13版本中这个特性就已经出现了,随着后续众多版本迭代更新...图3   通过比较可以发现在使用query()时我们在不需要重复书写数据名称[字段名]这样内容,字段名也直接可以当作变量使用,而且不同条件之间不需要用括号隔开,在条件繁杂时候简化代码效果更为明显...图9 2.6 对Index与MultiIndex支持   除了对常规字段进行条件筛选,query()还支持对数据自身index进行条件筛选,具体可分为三种情况: 常规index   对于只具有单列...同样从实际例子出发,同样针对netflix数据,我们按照一定计算方法为其新增两数据,对基于assign()方式和基于eval()方式进行比较,其中最后一是False是因为日期转换使用coerce...策略之后无法被解析日期会填充pd.NAT,而缺失之间是无法进行相等比较: # 利用assign进行新增字段计算并保存为新数据 result1 = netflix.assign(years_to_now

1.7K20
领券