循环pandas数据帧以删除重复项

文章/答案/技术大牛

发布

1回答

、

Timmy, Sam 我需要遍历这个数据帧并删除列' names‘中所有重复的名称，即删除那些出现在前面行中的名称。例如，在第1行和第3行，Jones和Eddy是重复的，我希望将它们从第3行删除。

浏览 12提问于2021-09-14得票数 0

回答已采纳

1回答

python比较两个excel文件并删除重复数据

、、

我想在email.xlsx中删除取消订阅的电子邮件这是我的代码 import pandas as pd email_data

浏览 65提问于2020-06-18得票数 0

0回答

无法将excel行与pandas dataframe行数匹配

、、、

我尝试对文件中的Unicode字符进行编码，并将其传递到pandas数据帧中。但是，我在Jupyter notebook中使用df.column.value_counts()获得的唯一行数与同一文件的excel行数不匹配(在删除重复值之后)。我如何解决这个问题？我加载了一个文本文件(以制表符分隔)，并使用encoding = 'ISO-8859-1‘将其转换为pandas数据帧。创建数据帧</em

浏览 13提问于2019-01-21得票数 0

1回答

如何显示DF中在python的一列中有重复值的所有行？

、、

我有两个数据帧，我正尝试基于一个列(df['Number and postcode'])合并它们。但是，该列有许多重复值，因此合并不起作用(它会给出这样的错误：#检查重复的值)。另一个问题是df1['Number and postcode']也可能有许多重复的值。我该如何解决这个问题呢？

浏览 5提问于2020-05-13得票数 0

1回答

仅取R中数据框所有列的重复in的最大值

、、、

我有24525行22列的数据帧。最后一列是ID列，其他列是数字列。唯一ID数为18414，部分ID重复次数超过2次。有谁知道完成这项任务的方法吗？提前谢谢你

浏览 0提问于2021-01-13得票数 0

2回答

查找重复行的索引

、、

在R中复制的函数执行重复的行搜索。如果我们想要删除重复项，我们只需要写df[!duplicated(df),]，然后重复项就会从数据帧中删除。但是如何找到重复数据的索引呢？如果duplicated在某一行上返回TRUE，这意味着这是数据帧中第二次出现这样的行，可以很容易地获得它的索引。如何获取此行首次出现的索引？或者，换句话说，重复行与之相同的

浏览 3提问于2012-09-19得票数 78

回答已采纳

1回答

如何使用匹配值对数据进行分组

、

我刚开始使用Pandas，我正在尝试重构一个数据帧，以删除第一列中的重复项，同时保留每个重复项的数量，并取第二列中的值的总和。

浏览 2提问于2019-04-05得票数 0

1回答

Python Pandas通过在特定位置切片数据来创建多个数据帧

、、

我是Python和使用编程进行数据分析的新手。我有一个很长的csv，我想动态创建DataFrame，并在以后绘制它们。下面是一个与我的csv文件中的数据类似的DataFrame示例 df = pd.DataFrame("b" :'b', 0.1, 0.2, 'b', 0.3, 0.4, 'b'], "

浏览 8提问于2018-12-19得票数 0

回答已采纳

1回答

pandas删除重复项不返回已删除重复项的数据帧

、、

我有一个数据框架：我希望从此数据帧中删除列src和trg的重复项 df = df.drop_duplicates(subset=['src'

浏览 0提问于2020-03-02得票数 0

3回答

如何删除pandas数据帧中的重复项，但保留基于特定列值的行

、、、、

我有一个有NBA球员统计数据的pandas数据框，我想删除重复的球员行。有重复的，因为有些球员在2020-2021赛季在多支球队踢球，我想删除这些重复的东西。然而，对于这些在多个球队踢球的球员，还会有一个行，其中包含该球员在所有球队的组合统计数据和团队标签'TOT'，这表示该球员在本赛季在两支或更多球队比赛的事实。当我删除重复的球员时，我希望与“TOT”团队的行保留下来，而所有其

浏览 1提问于2021-02-02得票数 0

1回答

数据帧中的复杂类型的链

、

我有一个数据框架。import pandas as pd "num": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "500835.5645.5645.1162.1162.500835",}print(df) 数据帧</e

浏览 16提问于2020-02-08得票数 2

回答已采纳

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics/Notebooks/Krish

浏览 110提问于2019-06-20得票数 1

1回答

如何识别pandas中的重复条目

我有一个如下的数据框架。mmm5 mmm mmm7 nnn nnn 9 lll lll我希望保留一个条目并删除所有其他重复条目，同时返回另一个数据帧，其中包含上述数据帧中已删除条目的详细信息。", "mmm", "mmm", "mmm", "mmm"

浏览 11提问于2019-07-17得票数 0

回答已采纳

4回答

如何在增量表中删除重复项？

、、

有一个从增量表中删除数据的函数：deltaTable.delete(col("date") < "2017-01-01") 但是，有没有办法以某种方式删除重复项呢？我不想将整个表作为数据帧读取，删除重复

浏览 2提问于2020-05-08得票数 3

1回答

Pandas将列解释为数据帧而不是列，并返回错误

、、

我正在使用一个数据帧，不幸的是，我不能在这里分享。pd.to_numeric(df[col], errors = 'coerce')> 31 > ~\Anaconda3\lib\site-packages\pandas实际上，命令print(type(dfcol))返回 <class 'pandas.core.frame.DataFrame'> 我使用python已经有一段时间了，这是我第一次看到这样的问题

浏览 8提问于2020-01-09得票数 1

3回答

查找干净数据集的重复记录和子集

我有一个数据集，其中一个特定行中的所有值都有重复行，其中第二行在其中缺少值。如何在python中编写代码以查找数据集中的重复记录？

浏览 2提问于2019-08-16得票数 0

回答已采纳

2回答

如果两个文件具有相同的列值，则合并这些文件中的行

、、

目前，我正在亚马逊的网站上搜寻一些数据。我遇到的问题是，我不能真正从同一个页面获得一个产品的所有数据。我最终得到的是两个文件，它们具有相同的列标题，但列本身的数据不同。如果file2中的代码与file1中的代码相同，那么将file2中的数据粘贴到file1中(或者直接创建一个新文件)的最佳方法是什么？我可能会使用数万种不同的产品代码，所以越有效的方式越好。下面我将链接两个文件作为示例文件1：https://ufile.io/oojru 文件2：https://ufile

浏览 10提问于2019-02-01得票数 1

回答已采纳

1回答

如何选择要删除的重复行？

、、、

我正在尝试将一个新数据集与一个旧数据集合并，每个表类型都有一个包含主键的SeqString，以及一个旧数据帧和一个具有相同模式的新数据帧。如果主键列值匹配，我想用新数据帧中的行替换旧数据帧中的行，如果它们不匹配，我想将行添加到。union(newDF.withColumn("old/new",lit("2"))) .dropDuplicates(pri

浏览 17提问于2016-08-05得票数 0

回答已采纳

1回答

合并具有重叠索引和列的pandas* DataFrames*

、

它们在索引和列中都有重叠的数据。120.900002 2581600 NaN 6730500.0 df4 = df1.append(df2).drop_duplicates().sort_index()返回类似于df3的数据帧

浏览 17提问于2021-02-10得票数 1

1回答

Pandas to_sql()更新数据库中的唯一值？

、、、

如何使用df.to_sql(if_exists = 'append')在数据帧和数据库之间仅附加唯一的值。换句话说，我想评估DF和DB之间的重复项，并在写入数据库之前删除这些重复项。I am using: index: datetime.datetime

浏览 4提问于2018-09-05得票数 6

回答已采纳

点击加载更多