pyspark:删除具有排他子集的重复项

文章/答案/技术大牛

发布

1回答

、、

我可以用若要删除在子集列表中定义的列方面重复的所有行，请执行以下操作。是否可以通过指定不包括在子集列表中的列来获得相同的结果(类似于谢谢

浏览 10提问于2020-11-27得票数 0

回答已采纳

1回答

使用MinID和复杂选择从MYsql表中删除重复项

、

我在这里找到了删除最小ID为的记录的方法：但是，我不希望表中所有找到的副本都删除ID较低的副本，只删除其中的一个子集。对于其他的dupes模式，我还有其他的标准。因此，我选择获取具有重复项和

浏览 1提问于2016-04-11得票数 0

2回答

Pyspark删除重复的base 2列

、

我在pyspark中有了下一个df： +---------+----------+--------+-----+----------+------++---------+----------+--------+-----+----------+------+ 我需要删除ncf和日期相等的行。

浏览 42提问于2021-10-25得票数 0

回答已采纳

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics/Notebo

浏览 110提问于2019-06-20得票数 1

1回答

使用pandas查找重复项时结果不一致

、

我有一个数据集，并希望删除重复的记录。dupdf1 = df[df.duplicated(keep=False)].sort_values(["customer_id","product_id"]) 当我使用子集运行下面的命令来获取重复记录的</em

浏览 3提问于2021-09-27得票数 0

1回答

检测导致行唯一性的熊猫列

、

我试图在熊猫DataFrame中删除多列的重复行。问题是，必须有一些具有唯一值的列，因为df.drop_duplicates(subset=None, keep='first', inplace=True)并没有删除我希望它删除的所有行。选择两行在我看来是重复的，我尝试了一个视觉比较，但无法识别它们之间的差异。因为有许多列，视觉检查是耗时和容易出错的.--我想要

浏览 6提问于2020-06-24得票数 1

回答已采纳

3回答

从PySpark中的数据中删除重复项

、、、

我在本地使用pyflem1.4中的dataframes，并且在让dropDuplicates方法工作时遇到了问题。它不断地返回错误：不太确定为什么，因为我似乎遵循中的语法。

浏览 2提问于2015-06-26得票数 25

回答已采纳

3回答

Spark SQL DataFrame - distinct() vs dropDuplicates()

、、、

在查看DataFrame应用程序接口时，我可以看到两种不同的方法执行相同的功能，用于从数据集中删除重复项。我可以理解dropDuplicates(colNames)将只考虑列的子集来删除重复项。

浏览 0提问于2016-02-27得票数 22

7回答

如何将范围内的所有值转换为文本？

、

我想从列中删除重复项：但是，由于混合数据类型，这不能正确地删除所有重复项。我知道混合数据类型是一个问题，因为在尝试从这些值的副本中删除重复项之前，使用TEXT($REF, "0")手动转换单元格是成功的。如何将范围内的所有值替换为它们的文本等效<em

浏览 3提问于2014-06-03得票数 0

回答已采纳

1回答

PySpark DataFrame无法删除重复项

、、、、

你好，我已经创建了一个星星之火数据，我正在尝试删除重复的：我得到以下错误： at java.lang.Thread.run(Thread.java:745)我用了一个这样的笔记本PYSPARK_DRIVER_PYTHON=jupyter <e

浏览 9提问于2016-05-07得票数 13

回答已采纳

6回答

检查重复项时的性能

、、、

我一直在做一个项目，在这个项目中，我需要遍历一个数据集合，并删除“主键”重复的条目。我的预期是，这是因为List允许索引访问，而Dictionary不允许。我想知道的是，这个问题有没有更好的解决方案。我不需要再次访问条目，我只需要跟踪我看到的“主键”，并确保我只对具有新主键的条目执行添加工作。我使用的是C#和.NET 2.0。并且我无法控制修复输入数据以从源中删除重复项</

浏览 2提问于2008-09-18得票数 1

回答已采纳

1回答

迭代排除删除的值

、

我有一组x，y，z数据，像这样：1 1 01 1 32 1 32 2 4不重复：1 1 02 1 3重复项：1 1 22 2 4x y z2 2 4 重复

浏览 2提问于2017-04-12得票数 0

1回答

从列表构建唯一随机子集(&R)

、、、

我想创建一个不允许重复项的子集列表，这里是我的示例代码 import randomprint(selected_unique_subset) 输出:在下面的列表中，

浏览 15提问于2019-12-09得票数 0

回答已采纳

1回答

按行删除星火RDD中的重复

、、、

我正在使用做一些工作，并有一个包含在每一行中的重复事务示例的rdd。这将导致模型训练函数因这些重复项而引发错误。我对Spark相当陌生，我想知道如何删除rdd行中的重复项。例如： from pyspark.mllib.fpm import FPGrowth data = [["a", "a", "b", &

浏览 2提问于2016-09-06得票数 0

回答已采纳

2回答

PYSPARKSQL中的枢轴

、、、、

我需要在下面的桌子上使用枢轴。102,1,96102,1,37101,2,282102,2,78102,3,60101,3,220输出102 96,37 212,78 123,60我在下面的代码中尝试过，但是只有在特定id上有一个记录时，它才能工作。 df.groupBy(

浏览 2提问于2017-12-28得票数 0

回答已采纳

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我指出正确的方向？

浏览 0提问于2018-09-11得票数 6

1回答

从基类指针访问派生类中的非虚拟函数的C++继承

、

我不想将setIntrestEarned()作为virtual添加到基类BankAccount中，因为它在其他类型的帐户中没有任何意义，比如派生的一个如果我们继续在不同的派生类中添加各种函数作为基类中的虚拟函数，那么它最终将成为派生类函数的超集。设计这类层次结构的最佳方法是什么？

浏览 3提问于2018-07-23得票数 0

2回答

sql unique和在插入上设置约束

、、

我有一个数据库，我需要在其中避免插入重复项。要求是：对于具有匹配列1的行子集，不能有任何具有相同列3和4的行。

浏览 0提问于2009-08-23得票数 1

回答已采纳

1回答

子集合的NHibernate DistinctRootEntity转换器

我有一个根实体(IList<RootEntity>)的集合，它是使用ICriteria API从NHibernate调用返回的。Child1Entity有一个子实体(IList<Child2Entity>)集合，这是第三层，它会导致Child1Entity集合具有重复项。我的问题是如何将重复数据消除过程应用到子集合。我有重复的原因是因为我在子集合上使用了LeftOuterJ

浏览 0提问于2010-10-23得票数 1

回答已采纳

2回答

spark:如何在保留最高时间戳行的同时对数据帧执行dropDuplicates

、、、

我有一个用例，我需要删除数据帧的重复行(在这种情况下，重复意味着它们具有相同的'id‘字段)，同时保留具有最高'timestamp’(unix时间戳)字段的行。我找到了drop_duplicate方法(我使用的是pyspark)，但无法控制将保留哪个项目。有人能帮上忙吗？提前进行Thx

浏览 2提问于2016-04-14得票数 9

回答已采纳

点击加载更多