函数从大型数据集中删除重复的列。

文章/答案/技术大牛

发布

1回答

尝试在连接hdfs表后删除pyspark df中的重复列名称？您好，我正在尝试连接多个具有200+最终列数的数据集。由于要求和大量的列，我不能在连接时选择特定的列。有没有办法在连接后删除重复的列。我知道有一种方法可以通过spark df的.join方法来做到这一点，但是我加入的基表不是spark df，并且我

浏览 20提问于2018-12-20得票数 1

1回答

在SAS中保留/删除变量

我想从一个大型SAS数据集中删除列/变量，称之为“数据”。我将所有想要删除的列名都存储在另一个SAS数据集中-让我们称它为'var'，它只有一列和标题列。如何使用drop函数从我的原始数据集'data‘中删除'var’中包含的

浏览 5提问于2011-10-02得票数 4

回答已采纳

2回答

从大型数据集中删除重复项

我有一个超过800000行的数据集，每个偶数行都是它前面的奇数行的副本。我想去掉复印件。请找人帮忙好吗？

浏览 1提问于2014-06-30得票数 0

1回答

如何根据重复日期和ID去除数据框行

、、

需要删除的重复项总是出现在该对中的第一个，所以我在考虑以某种方式使用该信息来删除它们。我简化了下面的数据，以减少问题(注意:我正在寻找一个函数，可以在大型数据集中删除多个重复项，而不必手动识别它们)：到目前为止，我一直在尝试完成以下代码： test <- ea2[!duplicated(ea2[,c("PatientID", "Ses

浏览 1提问于2019-07-06得票数 0

1回答

Pandas的关联方法是如何处理非数字列的？

、、

我正在使用Pandas的.corr()方法来确定可以从大型数据集中删除哪些列。其中一些列具有非数字类型。潘达斯是如何处理这些列的？

浏览 0提问于2022-11-21得票数 0

回答已采纳

1回答

使用Pandas删除列中的不匹配数据。

、

如何删除数据集中与两列的字典值不匹配的数据行。例如，以我的数据集的片段为例。我希望删除数据与字典不匹配的行，如第6行，并将此函数应用于大型数据集。

浏览 15提问于2021-12-19得票数 0

1回答

我想在R中使用一个简单的命令来绘制数据的NAs。

我有一个大约有111列和37,000行的数据。我删除了完全有0和NAs的列，现在我有57列。现在的挑战是，我仍然在数据集中的许多列中分发NAs，我想尝试使用一个图来显示分布式NAs。在浏览github时，我看到了以下使用Amelia包的命令。这对于为较小的数据集生成一个绘图似乎很有用，但是当我在我的大型

浏览 0提问于2018-06-29得票数 0

回答已采纳

3回答

Python Pandas删除列资源耗尽-已终止

、

我正在尝试使用Pandas从大型数据集中删除列，如下所示...data.drop(data.columns[[0, 1, 2]], axis=1, inplace=True) 数据集的读取工作正常，但是当丢弃发生时，它会给出一个'killed‘错误，我认为这是由于缺乏资源。有没有其他更有效的删除列

浏览 0提问于2020-06-08得票数 1

4回答

如何使用python从大型数据集中删除重复值

我想从大型数据集中删除重复的值。

浏览 0提问于2019-09-12得票数 1

回答已采纳

1回答

删除R中书目数据集中的所有重复实例

、、、

目标：--我正在寻找一种方法，从我的第二个数据集B中删除不相关的结果A(i)，这是我已经在第一个数据集中识别的。方法:如果我要合并数据集B & A(i)，我可以通过使用删除重复函数来跟踪B中不相关的结果A(i)，因为A(i)在B中会发生两次，但是这只会删除A(i)的重复项，而不是A(i)的所有实例。<e

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

函数删除包含“禁止”值的所有观察值-R。

、、、

我有一个大型数据集，如下所示：我想从我的数据集中删除包含向量NullNK中的一个PID的所有观察(行)。我尝试过为它编写一个函数，但是我得到了一个错误(我以前从未编写过函数)： SR_DynUeber_einfam

浏览 1提问于2017-07-15得票数 1

2回答

合并重复列名

我有一个数据框架，其中一些列具有相同的数据，但有不同的列名。我想删除重复的列，但是合并列名。例如，test1和test4列是重复的： 1 1 1 0 1 5 5 5 5

浏览 2提问于2017-03-27得票数 0

回答已采纳

3回答

如何在pandas数据框中找到重复项？

、、

我的任务是突出显示熊猫数据框中的所有电子邮件副本。有没有一个函数可以做到这一点，或者有一种方法可以删除所有的非重复项，这样我就可以从数据集中的所有重复项中得到一个很好的列表？该表由六列组成：a@a.com, Bill, Schneider, 123, 321,

浏览 0提问于2021-01-22得票数 1

2回答

从大型数据集中删除重复项(>100 from行)

、、、

我知道这个话题在这里出现过很多次，但是没有一个建议的解决方案对我的数据集有效，因为我的笔记本电脑由于内存问题或存储空间而停止计算。我的表看起来如下所示，并有108 Mio行：SmartCard |3674 | NEC |7373 |73733674|

浏览 1提问于2013-08-24得票数 5

回答已采纳

3回答

在C++中从字符串数组中删除重复项

、、

我有一个用C编写的字符串数组，每个字符串的长度大约是3000个字符。我想对它们进行散列，以获得更快的搜索结果，并且更喜欢完美的散列。问题是，完美的哈希需要数据集中唯一的字符串来创建哈希函数，因为我的数据集不可避免地存在重复。所以现在，我需要一种非常快速的方法来从C中的字符串数组中删除重复项。

浏览 0提问于2016-02-16得票数 1

1回答

绘制一个非常大的火花柱的直方图

相关问题：如何绘制此列的直方图？

浏览 1提问于2018-12-17得票数 0

2回答

如何在R data.frame中的所有行和列中查找单个值的重复项

、

我有一个大型数据集，其中包含一个标题和列中的一系列值。我希望在整个数据集中检测这些值的存在和重复数量。我尝试在r中使用复制函数，但这似乎只适用于作为一个整体的行或作为一个整体的列。使用不会得到任何副本，虽然我知道第一行有两个副本。因此，我想知道如何检测列/行内部和之间的重复项。干杯

浏览 4提问于2019-12-16得票数 0

回答已采纳

2回答

在Python Pandas中保存重复计算

、

在Pandas中，我可以使用.apply将函数应用到两列。3, 2, 5], 'C':[2, 2, 2, 8]})df.apply(formula, axis=1) 但是，请注意，前两行的结果是相同的，因为所有输入都是相同的。在具有复杂操作的大型数据集中。这些重复的计算可能会减慢我的程序。有

浏览 0提问于2017-12-08得票数 2

3回答

Spark SQL DataFrame - distinct() vs dropDuplicates()

、、、

在查看DataFrame应用程序接口时，我可以看到两种不同的方法执行相同的功能，用于从数据集中删除重复项。我可以理解dropDuplicates(colNames)将只考虑列的子集来删除重复项。

浏览 0提问于2016-02-27得票数 22

2回答

从大型数据集中移除重复行

、、、

假设我有一个非常大的数据集，无法放入内存中，数据集中有数百万条记录，我想删除重复的行(实际上是从重复行中保留一行)。1.使用bloom filter，我不确定它是如何实现的，但我猜它的副作用是有误报，在这种情况下，我们如何确定它是否真的是重复的？2.使用散列值，在这种情

浏览 4提问于2013-07-27得票数 3

点击加载更多