我有一个带有一些重复行的dataframe,我只想加入重复的行。举个例子如下:
name b c d
1 yp 3 NA NA
2 yp 3 1 NA
3 IG NA 3 NA
4 OG 4 1 0
重复的行由同名行定义。因此,在本例中,行1和行2需要以某种方式连接,并将NA值替换为可能的数值。
name b c d
1 yp 3 1 NA
2 IG NA 3 NA
3 OG 4 1 0
假设:如果两行的名称相同,且它们的对应列不是NA
我正在使用R中的数据集,我有一个问题,我似乎找不出答案。我目前的数据如下:
Team Person1 Person2 Person3 Person4 Person5 Person6 Person7
6594794 37505959 37469784 NA NA NA NA NA
6595053 30113392 33080042 21537147 32293683 NA NA NA
6595201 697417 22860111 NA NA
我是R的新手,我有这样的数据框架:
TimeStamp IndexA IndexB Value
12:00:01 1 NA Windows
12:00:05 1 NA Windows
12:00:13 1 NA Windows
12:00:48 NA 1 Macintosh
12:01:30 NA 1 Macintosh
12:01:45 NA 1 Macintosh
12:02:01 2 NA Windows
12:02:13 2
我知道我们可以使用dplyr函数coalesce()来联合不同的列,但是有没有这样的函数来联合行呢?
我正在努力处理一个令人困惑的不完整/重复的数据帧,其中具有相同id的重复行,但填充了不同的列。例如。
id sex age source
12 M NA 1
12 NA 3 1
13 NA 2 2
13 NA NA NA
13 F 2 NA
我正在努力实现:
id sex age source
12 M 3
我试图根据因素变量的存在来删除重复行。如果复制行中的因子变量显示所需的,而不是不想要的,我希望保留该行并删除另一行。所需的因素有时是第一次重复,有时是第二次。
此外,有一列在--想要的或不想要的--弹出时开始计算30天。如果没有类型( NA ),重复的标志列也将显示NA。
最后,每个品牌每天应该有一排。
手边数据的样本:
brand date sales orders customers type duplicate_flag
A 10/1/2018 100 5 4 NA NA
A
我希望通过唯一的记录ID来折叠重复的行,以便合并这些重复行上存在的唯一变量。某些变量只列在重复行的一个版本上,而其他唯一的变量则存在于复制记录的不同行中。我在R中工作,我希望记录只存在于一行中,而不会丢失任何唯一的列。一个“和-总计”行,它收集可能已在不同行上填充的每个列,因此最后一行不是一个重复,并显示所有可能已填充的每个变量.
我研究了合并和绑定,我考虑过编写一个If规则,但是复制因记录而异(见示例)。
record Var1 var2 var3 var4 var5
2 1 1 NA NA NA
2 NA NA 1 1
我有一个包含id、colA和colB列的表。数据包含重复的id列,对于某些行,colA或colB为null,但重复的id具有有效值。我想要清除数据,以便删除重复,但有完整的数据。例如,我的数据看起来就像
id | colA | colB
1 NA X
1 Y X
2 Z NA
2 Z Y
3 Z Y
3 Z Y
4 NA NA
4 NA NA
我想让我的数据看起来像
id | colA | colB
1 Y X
2 Z Y
下面的问题是如何检测一行是否有重复的单元格。我想问一下如何移除第二、第三、.重复(只保留一个单元格)
示例;team #6595380 (第4行)有一个重复成员- person #24432987,如Person1列和Person5列中所示。
Team Person1 Person2 Person3 Person4 Person5 Person6 Person7
6594794 37505959 37469784 NA NA NA NA NA
6595053 30113392 33080042 2153
如何在基于另一列的重复项中仅子集具有特定列中的值的行。
示例:
df
A B C D
1 NA 8 7
1 5 8 9
2 6 5 8
2 NA 5 6
3 NA 8 5
因此,在上面的数据集中,前4行基于列A和C是重复的,所以在它们之间,我只想选择在列B中有值的行。
期望输出,
A B C D
1 5 8 9
2 6 5 8
3 NA 8 5
谢谢。
我有以下数据框架:(这只是一个小样本)
VALUE COUNT AREA n_dd-2000 n_dd-2001 n_dd-2002 n_dd-2003 n_dd-2004 n_dd-2005 n_dd-2006 n_dd-2007 n_dd-2008 n_dd-2009 n_dd-2010
2 16 2431 243100 NA NA NA NA NA NA 3.402293 3.606941 4.000461 3.666381 3.499614
3 16 2610 261
假设我有一个dataframe (df),其中每一行都以NA结尾。
> df
# [,1] [,2] [,3] [,4] [,5]
# [1,] 1 7 9 4 NA
# [2,] 3 6 NA NA NA
# [3,] 1 6 6 4 3
# [4,] 7 7 NA NA NA
# [5,] 4 3 1 8 NA
我创建了一个列表,其中每一行都没有NA
nn <-c()
for (i
我希望使用特定变量“示例”下的值从Linux上的.csv文件(名为“mydata”)中删除特定行。实际上,我的文件中有250个副本,在原始文件中有15000行和66列,我希望删除每个副本的一个副本,并保留一个副本。如果您查看其他变量,例如'ID',您将看到重复的存在。因此,如果我可以根据“SAMPLE”列中的值删除重复或特定的行,任何解决方案都可以。示例是我的数据中唯一一个重复名称不相同的列。我的数据是这样的;
ID SAMPLE LABNO Oth_ID sex age bmi ca_1 pd_7
1003341 21863 21863 NA
这个问题不是重复的,因为我的NA 在所有列中都没有相同数量的值,因此该问题中提到的解决方案不起作用。
我有一个具有大量NA值的NA,我想删除所有具有NA值的单元格(重要:不是行或列、单元格)。原来的样子是这样的:
A B
1 NA
NA 2
2 NA
NA NA
NA NA
NA 4
3 5
期望的结果如下所示:
A B
1 2
2 4
3 5
列数必须保持不变,但值是否保持在相同行上并不重要。他们就能被提升。
我可以图像,一个可以删除所有的条件NA (可能是应用)的所有细胞,并得到结果。或者简单的分类?
谢谢。
更新:
A B C
1 3
2
我正在分析堆栈溢出调查数据。其中一个列Databaseworkedwith是一个分号分隔的值列表,所以我使用split然后爆炸来为每个值创建新行。但是现在我得到了其他列的重复值。是否有一种方法可以避免复制其他列,而在它们中使用null。
下面是我的密码。
from pyspark.sql import SparkSession
import pyspark.sql.functions as f
import pyspark.sql.types as t
if __name__ == '__main__':
session = SparkSession.builder
我试图在R中逐行获得重复值的一些统计数据(最小、最大、平均)。
我的dataframe看起来类似于以下内容:
b <- as.data.frame(matrix(ncol=7, nrow=3,
c(3,NA,NA,4,5,NA,7,6,NA,7,NA,8,9,NA,NA,4,6,NA,NA,7,NA), byrow = TRUE))
对于每一行,我想添加一个列,其中包含no的最小值、最大值和平均值。包含连续NAs的列,它应该如下所示
V1 V2 V3 V4 V5 V6 V7 max min mean
1 3 NA NA 4 5 NA 7 2 1 1.5
让数据框是
data<-data.frame(name=c("A", "B", "A", "C", "A", "B", "D"), num = c(1,NA, 0,NA, 1, NA, 0))
我得到的结果是:
name num
1 A 1
2 B NA
3 A 0
4 C NA
5 A 1
6 B NA
7 D 0
我想使用dplyr删除column1(名称)中的重复行,并在单管道函数中删除column2(nu
我在R中创建了一个dataframe,这里是一个4行示例(实际df为13000行):
colA colB
1 89 89
2 NA NA
3 90 NA
4 NA 91
其中NA是空值。每种情况都包含每个变量的重复值、2个空值或1个空值。
我希望将这些列合并为1列,或创建新的列,其中:
如果值是重复的,则输出中的值是相同的值(不应用任何算术--我不想添加/乘这些值;如果每个值为NA(空),输出值为NA(空),输出值为空),输出值应为实际值</code>,则输出值应为实际值<code>F 210</code>。
这是我想