如何在维护数据集的同时,根据特定列删除重复行。我试着用这些,
我想要看到的是基于第3列到第6列的歧义。如果它们的值是相同的,那么处理过的数据集应该删除行,如示例所示:
我使用了这个代码,但是我给了我一半的结果:
Data <- unique(Data[, 3:6])
假设我的数据集是这样的
A B C D E F G H I J K L M
1 2 2 1 5 4 12 A 3 5 6 2 1
1 2 2 1 5 4 12 A 2 35 36 22 21
1 22 32 31 5 34 12 A 3 5 6
我正在尝试将列上的重复值转置为与第一个结果相同行上的新列 创建数据集 import numpy as np
import pandas as pd
ref = ['a','a','b','c','c','c']
z = pd.DataFrame(ref)
z = z.rename(columns={0:'name'}) 查找唯一值{名称,索引位置,n:重复} unique_values = {}
i = 0
while i <= len(z)-1:
for x
我有如下所示的数据:
a<-data.frame(ID=c("A","B","C","C",NA,NA),score=c(1,2,3,3,5,6),stringsAsFactors=FALSE)
print(a)
ID score
A 1
B 2
C 3
C 3
<NA> 5
<NA> 6
我尝试在不使用R的情况下删除重复项,将<NA>视为重复项,以获得以下结果:
b<-data.frame(ID=c("A","B"
在合并两个数据集的过程中,我使用函数duplicated检查数据是否重复。无论是在duplicated之前运行还是在setkey()之后运行,我都会得到两个不同的输出。这是data.table的自然行为吗?在我看来,通过设置键,复制的数量应该保持不变,据我理解,这只是对data.table的重新排序和索引。我错过了什么关键点吗?
非常感谢!
下面是一个示例data.table
> DT
id x1 x2
1: A 0 1
2: A 1 1
3: B 0 1
4: B 1 0
5: C 1 1
6: C 0 0
在这个未加键的数据集中运行dupli
只有当重复的数量小于x(例如3)时,我才需要在我的DataFrame中删除重复的行(如果超过3个重复,保留它们!)
示例:
其中count是重复的数目,重复的在data中。
data | count
-------------
a | 1
b | 2
b | 2
c | 1
d | 3
d | 3
d | 3
预期结果:
data | count
-------------
a | 1
b | 1
c | 1
d | 3
d | 3
d | 3
我怎样才能做到这一点?提前谢谢。