首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Python】基于某些列删除数据重复

# coding: utf-8 import os #导入设置路径库 import pandas as pd #导入数据处理库 import numpy as np #...导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据重复') #把路径改为数据存放路径 name = pd.read_csv('name.csv...从结果知,参数为默认时,是在原数据copy上删除数据,保留重复数据第一条并返回新数据。 感兴趣可以打印name数据,删重操作不影响name。...结果和按照某一列去重(参数为默认)是一样。 如果想保留原始数据直接用默认即可,如果想直接在原始数据删重可设置参数inplace=True。...但是对于两列中元素顺序相反数据去重,drop_duplicates函数无能为力。 如需处理这种类型数据去重问题,参见本公众号中文章【Python】基于多列组合删除数据重复。 -end-

18.4K31
您找到你想要的搜索结果了吗?
是的
没有找到

【Python】基于多列组合删除数据重复

最近公司在做关联图谱项目,想挖掘团伙犯罪。在准备关系数据时需要根据两列组合删除数据重复,两列中元素顺序可能是相反。...本文介绍一句语句解决多列组合删除数据中重复问题。 一、举一个小例子 在Python中有一个包含3列数据,希望根据列name1和name2组合(在两行中顺序不一样)消除重复项。...二、基于两列删除数据重复 1 加载数据 # coding: utf-8 import os #导入设置路径库 import pandas as pd #导入数据处理库...import numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据重复') #把路径改为数据存放路径 df =...numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据重复') #把路径改为数据存放路径 name = pd.read_csv

14.6K30

【Mark一下】46个常用 Pandas 方法速查表

数据与R中DataFrame格式类似,都是一个二维数组。Series则是一个一维数组,类似于列表。数据Pandas中最常用数据组织方式和对象。...,列名为字典3个key,每一列为key对应value 2 查看数据信息 查看信息常用方法包括对总体概况、描述性统计信息、数据类型和数据样本查看,具体如表2所示: 表2 Pandas常用查看数据信息方法汇总...'col2=="b"')) Out: col1 col2 col3 1 1 b 1筛选数据中col2为b记录 5 数据预处理操作 Pandas数据预处理基于整个数据或...本节功能具体如表5所示: 表5 Pandas常用预处理方法 方法用途示例示例说明T数据,行和列转换In: print(data2.T) Out: 0 1 2 col1 2...col2 object col3 int32 dtype: object将col3换为int型rename更新列名In: print(data2.rename(columns= {

4.8K20

没错,这篇文章教你妙用Pandas轻松处理大规模数据

编译 | AI科技大本营(rgznai100) 参与 | 周翔 注:Pandas(Python Data Analysis Library) 是基于 NumPy 一种工具,该工具是为了解决数据分析任务而创建...在这篇文章中,我们将介绍 Pandas 内存使用情况,以及如何通过为数据(dataframe)中列(column)选择适当数据类型,将数据内存占用量减少近 90%。...对象列(object columns)主要用于存储字符串,包含混合数据类型。为了更好地了解怎样减少内存使用量,让我们看看 Pandas如何将数据存储在内存中。...数据内部表示 在底层,Pandas 按照数据类型将列分成不同块(blocks)。这是 Pandas 如何存储数据前十二列预览。 你会注意到这些数据块不会保留对列名引用。...pandas.read_csv() 函数有几个不同参数可以让我们做到这一点。dtype 参数可以是一个以(字符串列名称作为 keys、以 NumPy 类型对象作为字典。

3.6K40

Pandas行列转换4大技巧

本文介绍Pandas中4个行列转换方法,包含: melt 置T或者transpose wide_to_long explode(爆炸函数) 最后回答一个读者朋友问到数据处理问题。...: frame:要处理数据DataFrame。...pandasT属性或者transpose函数就是实现行转列功能,准确地说就是置 简单置 模拟了一份数据,查看结果: [008i3skNgy1gxenewxbo0j30pu0mgdgr.jpg...] 使用transpose函数进行置: [008i3skNgy1gxenfoqg6tj30ia0963yt.jpg] 还有另一个方法:先对values进行置,再把索引和列名进行交换: [008i3skNgy1gxengnbdfxj30ua0c4wfm.jpg...] 最后看一个简单案例: [008i3skNgy1gxenhj6270j30p20riwgh.jpg] wide_to_long函数 字面意思就是:将数据集从宽格式转换为长格式 wide_to_long

4.6K20

在Python如何将 JSON 转换为 Pandas DataFrame?

将JSON数据换为Pandas DataFrame可以方便地进行数据分析和处理。在本文中,我们将探讨如何将JSON转换为Pandas DataFrame,并介绍相关步骤和案例。...使用 Pandas 从 JSON 字符串创建 DataFrame除了从JSON文件中读取数据,我们还可以使用PandasDataFrame()函数从JSON字符串创建DataFrame。...JSON 数据清洗和转换在将JSON数据换为DataFrame之后,我们可能需要进行一些数据清洗和转换操作。这包括处理缺失数据类型转换和重命名列等。...) # 将列数据类型转换为整数重命名列:df = df.rename(columns={'old_name': 'new_name'}) # 将列名从"old_name"改为"new_name"通过这些操作...结论在本文中,我们讨论了如何将JSON转换为Pandas DataFrame。

92020

Pandas进阶修炼120题|第一期

在『Pandas进阶修炼120题』系列中,我们将对pandas中常用操作以习题形式发布。从读取数据到高级操作全部包含。...如果你是新手,可以通过本系列完整学习使用pandas进行数据处理各种方法,如果你是高手,欢迎留言给出与答案不同解法。本期先来20题热身吧!...答案: df = pd.DataFrame(data) 本期所有题目均基于数据给出 2 数据提取 题目:提取含有字符串"Python"行 难度:⭐⭐ 期望结果 grammer score...0 Python 1.0 7 Python 10.0 答案: result=df[df['grammer'].str.contains("Python")] 3 提取列名 题目:输出df所有列名..."列大小进行排序 难度:⭐⭐ 答案 df.sort_values("popularity",inplace=True) 20 字符统计 题目:统计grammer列每个字符串长度 难度:⭐⭐⭐ 答案

71610

python-Python与SQLite数据库-使用Python执行SQLite查询(二)

最后,我们使用一个循环遍历所有行,并打印它们。使用fetchall()获取列名和列类型当我们查询数据库时,通常需要知道每列名称和数据类型。...我们使用一个列表推导式来提取列名和列类型,并使用print()函数打印它们。使用fetchall()和pandas库获取数据pandas是一个强大数据分析库,可以用于处理和分析数据。...在Python中,我们可以使用pandas库将查询结果转换为数据,并使用数据来处理数据。...以下是一个将customers表格中数据换为数据示例:import sqlite3import pandas as pd# Create a connection to the databaseconn...然后,我们使用pd.read_sql_query()函数执行SQL查询,并将结果转换为数据。最后,我们使用print()函数打印数据内容。

1.5K10

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

PyCon 2019,Pandas 数据科学最佳实践 本文基于 Kevin 于 2019 年 7 月推出最新视频教程,汇总了他 5 年来最喜欢 25 个 pandas 操作技巧,希望大家喜欢。...目录 查看 pandas 及其支持项版本 创建 DataFrame 重命名列 反转行序 反转列序 按数据类型选择列 把字符串换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...操控缺失字符串分割为多列 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择行与列 重塑多重索引 Series 创建透视表...这样就可以生成 DataFrame 了,但如果要用非数字形式列名,需要强制把字符串换为列表, 再把这个列表传给 columns 参数。 ?...这里要注意是,字符串字符数量必须与 DataFrame 列数一致。 3. 重命名列 ? 用点(.)选择 pandas列写起来比较容易,但列名里有空格,就没法这样操作了。

7.1K20

6个冷门但实用pandas知识点

2]) # Series转为DataFrame,name参数用于指定转换后字段名 s = s.to_frame(name='列名') s 图2 顺便介绍一下单列数据组成数据转为Series...记录行顺序 有时候我们需要对数据整体行顺序进行打乱,譬如在训练机器学习模型时,打乱原始数据顺序后取前若干行作为训练集后若干行作为测试集,这在pandas中可以利用sample()方法快捷实现。...range(5), 'V2': range(5) }) df.sample(frac=1) 图4 2.3 利用类别型数据减少内存消耗 当我们数据中某些列是由少数几种大量重复形成时,会消耗大量内存...2.4 pandasobject类型陷阱 在日常使用pandas处理数据过程中,经常会遇到object这种数据类型,很多初学者都会把它视为字符串,事实上object在pandas中可以代表不确定数据类型...在pandas中我们可以对单个Series查看hanans属性来了解其是否包含缺失,而结合apply(),我们就可以快速查看整个数据中哪些列含有缺失: df = pd.DataFrame({

87130

6个冷门但实用pandas知识点

图2   顺便介绍一下单列数据组成数据转为Series方法: 利用squeeze()实现单列数据DataFrameSeries # 只有单列数据DataFrame转为Series s.squeeze...图3 2.2 随机打乱DataFrame记录行顺序   有时候我们需要对数据整体行顺序进行打乱,譬如在训练机器学习模型时,打乱原始数据顺序后取前若干行作为训练集后若干行作为测试集,这在pandas...图4 2.3 利用类别型数据减少内存消耗   当我们数据中某些列是由少数几种大量重复形成时,会消耗大量内存,就像下面的例子一样: import numpy as np pool = ['A',...2.4 pandasobject类型陷阱   在日常使用pandas处理数据过程中,经常会遇到object这种数据类型,很多初学者都会把它视为字符串,事实上object在pandas中可以代表不确定数据类型...图10 2.5 快速判断每一列是否有缺失   在pandas中我们可以对单个Series查看hanans属性来了解其是否包含缺失,而结合apply(),我们就可以快速查看整个数据中哪些列含有缺失

1.2K40

Pandas 25 式

目录 查看 pandas 及其支持项版本 创建 DataFrame 重命名列 反转行序 反转列序 按数据类型选择列 把字符串换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...操控缺失字符串分割为多列 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择行与列 重塑多重索引 Series 创建透视表...这样就可以生成 DataFrame 了,但如果要用非数字形式列名,需要强制把字符串换为列表, 再把这个列表传给 columns 参数。 ?...这里要注意是,字符串字符数量必须与 DataFrame 列数一致。 3. 重命名列 ? 用点(.)选择 pandas列写起来比较容易,但列名里有空格,就没法这样操作了。...把字符串换为数值 再创建一个新 DataFrame 示例。 ? 这个 DataFrame 里数字其实是以字符串形式保存,因此,列类型是 object。 ?

8.4K00

Python常用小技巧总结

Pandas数据分析常用小技巧 ---- 数据分析中pandas小技巧,快速进行数据预处理,欢迎点赞收藏,持续更新,作者:北山啦 ---- ---- 文章目录 Pandas数据分析常用小技巧 Pandas...小技巧 pandas生成数据 导入数据 导出数据 查看数据 数据选择 数据处理 数据分组 数据合并 数据替换--map映射 数据清洗--replace和正则 数据透视表分析--melt函数 将分类中出现次数较少归为...pd.DataFrame() # 自己创建数据,用于练习 pd.read_csv(filename) # 从CSV⽂件导⼊数据 pd.read_table(filename) # 从限定分隔符...pd.read_json(json_string) # 从JSON格式字符串导⼊数据 pd.read_html(url) # 解析URL、字符串或者HTML⽂件,抽取其中tables表格 导出数据...–melt函数 melt是逆转操作函数,可以将列名换为数据(columns name → column values),重构DataFrame,用法如下: 参数说明: pandas.melt(frame

9.4K20

PandasNumPyMatrix用于金融数据准备

pandas pandas基于NumPy 一种工具,该工具是为解决数据分析任务而创建Pandas 纳入了大量库和一些标准数据模型,提供了高效地操作大型数据集所需工具。...pandas提供了大量能使我们快速便捷地处理数据函数和方法。你很快就会发现,它是使Python成为强大而高效数据分析环境重要因素之一。...布尔型,默认False,居右 win_type: 窗口类型。截取窗各种函数。字符串类型,默认为None。各种类型 on: 可选参数。对于dataframe而言,指定要计算滚动窗口列。列名。...# Numpy 模块 >>> import numpy as np 将数据集转换为numpy # 将打开DataFrame转换为numpy数组 >>> Open_array = np.array(dataset...矩阵运算在科学计算中非常重要,而矩阵基本运算包括矩阵加法,减法,数乘,置,共轭和共轭置 。

7.2K30

筛选功能(Pandas读书笔记9)

这里两个数字都是闭合,案例中[7:11]则选取是第8行至第12行(pandas从0开始编号) 二、提取任意列 1、按照列名提取单列 ? 2、按照列名提取多列 ?...三、提取任意行列数据 1、提取5至9行、列名字为名称数据 ? 2、提取5至9行、列名字为名称数据(方法二) ? 3、提取5至9行、列名字为名称、最高数据 ?...df['涨跌额']是选出涨跌额这一列 我们看到使用判断后返回是一个布尔型数据,是一个TRUE和FALSE集合体。 那我们如何将这个布尔型数据实现筛选功能呢? ?...转义一下就是你原始数据不能是字符串! 常见错误:原始数字使用文本形式存储 所以在这里和大家介绍一下如何强制文本转数字 ? 上述两种方法均可! 细心朋友肯定会说:“你我!不是转化涨跌幅咩!...=0, end=None)>=0 将名称那一列使用字符串find函数,如果find返回大于0,证明就是含有金字,如果没有金字,返回是-1,所以通过该方法可以判断哪行数据含有金字。

5.9K61

Python数据分析实战之数据获取三大招

2、Python基于文件对象分为3种方法 hon基于文件对象分为3种方法 Methods Describe Return read 读取文件中全部数据,直到到达定义size字节数上限 内容字符串,所有行合并为一个字符串...pandas不仅可以读取open()函数所读取文本文件及其他各类文件,最重要pandas读取结果为DataFrame数据,后续数据处理更为方便。...converters : dict, optional 字典, 选填, 默认为空, 用来将特定列数据换为字典中对应函数浮点型数据。...布尔, 选填, 默认为False, 用来指定是否置, 如果为True, 则置 ndmin : int, optional 整数型, 选填, 默认为0, 用来指定返回数据至少包含特定维度数组,...count : int 整数型, 读取数据数量, -1意味着读取所有的数据。 sep : str 字符串, 如果文件是文本文件, 那么该数据分隔符。

6.5K30

Python数据分析实战之数据获取三大招

2、Python基于文件对象分为3种方法 hon基于文件对象分为3种方法 Methods Describe Return read 读取文件中全部数据,直到到达定义size字节数上限 内容字符串,所有行合并为一个字符串...pandas不仅可以读取open()函数所读取文本文件及其他各类文件,最重要pandas读取结果为DataFrame数据,后续数据处理更为方便。...converters : dict, optional 字典, 选填, 默认为空, 用来将特定列数据换为字典中对应函数浮点型数据。...布尔, 选填, 默认为False, 用来指定是否置, 如果为True, 则置 ndmin : int, optional 整数型, 选填, 默认为0, 用来指定返回数据至少包含特定维度数组,...count : int 整数型, 读取数据数量, -1意味着读取所有的数据。 sep : str 字符串, 如果文件是文本文件, 那么该数据分隔符。

6K20

Pandas速查卡-Python数据科学

格式字符串, URL或文件. pd.read_html(url) 解析html URL,字符串或文件,并将表提取到数据列表 pd.read_clipboard() 获取剪贴板内容并将其传递给read_table...() pd.DataFrame(dict) 从字典、列名称键、数据列表导入 输出数据 df.to_csv(filename) 写入CSV文件 df.to_excel(filename) 写入Excel...('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据前n行 df.tail(n) 数据后n行 df.shape() 行数和列数...) 将数组数据类型转换为float s.replace(1,'one') 将所有等于1换为'one' s.replace([1,3],['one','three']) 将所有1替换为'one',...df.describe() 数值列汇总统计信息 df.mean() 返回所有列平均值 df.corr() 查找数据列之间相关性 df.count() 计算每个数据列中非空数量 df.max

9.2K80

如何使用htmltab库

htmltab是一个用于从HTML表格中提取数据Python库。它可以将HTML表格转换为Pandas数据,方便进行数据处理和分析。要使用htmltab库,首先需要安装htmltab。...以下是一个简单示例:import htmltab# 从HTML文件中读取表格table = htmltab.read_html("table.html")# 输出表格列名print(table.column_names...然后,通过table.column_names输出表格列名,通过table.df输出表格数据。...除了从HTML文件中读取表格,htmltab还提供了其他方法来从不同数据源中读取表格,如从URL、字符串、文件对象等。具体使用方法可以参考htmltab官方文档。...通过引入htmltab库,使用jshk.com.cn等方法可以方便地从HTML文件或其他数据源中读取表格数据,并将其转换为Pandas数据进行数据处理和分析。

15230
领券