我有几个数据帧,我只想合并成一个大的数据帧来构建分类器。 This is the base dataframe, user_df_copy 在此数据帧中,有一个id列,它指示客户端id。我还有其他的dataframes like this one,它们有与user_id列相关的列。 因此,我们的目标是将这些小数据帧合并到user_df_copy中,添加像subject_id这样的列,并且仅当user_id与主df id匹配时才具有值,否则为NaN。问题是,在这些小的数据帧中,id似乎是重复的。 我还对subject_id列like this.应用了get_dummies
这似乎是一个简单的问题,但我似乎无法弄清楚。如果两列具有相同的值,则我希望从dataframe (df)中删除重复项,即使这些值是反向顺序的。我的意思是,假设您有以下数据框架:
a <- c(rep("A", 3), rep("B", 3), rep("C",2))
b <- c('A','B','B','C','A','A','B','B')
df <-data.frame(a,b)
a b
1
虽然在matrix中允许重复的行(和列)名称,但在data.frame中不允许。尝试rbind()一些具有共同行名的数据帧会突出这个问题。考虑下面的两个数据帧:
foo = data.frame(a=1:3, b=5:7)
rownames(foo)=c("w","x","y")
bar = data.frame(a=c(2,4), b=c(6,8))
rownames(bar)=c("x","z")
# foo bar
# a b a b
# w 1 5
我是编程新手,请原谅我的无知。
我有以下数据帧:
ID Name
0 AJ-6 Mark
1 AJ-6 Mark
2 AJ-6-FR Judith
3 AJ-6-FR Judith
4 AJ-6-FR Christian
.. ... ...
299 TV-552 Marie
300 TV-552 Ruth
309 ZS-V-21 John
310 Z
我还是个R的新手,我想不通。我有一个数据帧,看起来像这样: Age State Diagnosis
12 Texas Lung Cancer
67 California Colon Cancer
45 Wyoming Lung Cancer
36 New Mex. Leukemia
58 Arizona Colon Cancer
35 Colorado Leukemia 我需要一个程序,以某种方式打印或添加到另一个数据帧中的所有不同的字符串,位于每一列。所以我
我想知道如何根据数据帧第一列中的标识符号删除重复的行条目。大多数函数(如duplicated()和unique() )都会检查行中的每个值,以便识别重复的行。另一方面,我感兴趣的是仅根据一列识别重复的内容。
下面是一个例子:
ID Test Date Taken
1 POS 1/1/15
1 POS 2/8/14
2 NEG 7/9/13
2 NEG 4/10/12
2 NEG 2/5/08
和预期的结果:
ID Test Date Taken
1 POS 1/1/15
2 NEG 7/9/13
我有一个数据框架,其中一列将对多行重复相同的字符串(它是不同的)。我想根据每个重复名称将数据框架分割成单独的数据帧(输出可以是一个列表)。例如,对于此数据框架:
dat = data.frame(names=c('dog','dog','dog','dog','cat','cat'), value=c(1,2,3,4,5,5))
输出应该是
names value
dog 1
dog 2
dog 3
dog 4
和
names v
我的数据集包含每个州每年的教育数据。我想创建一个循环,为包含原始数据集中所有列的每个状态创建数据帧。一个主键的例子是1992_ALABAMA。我想有一个阿拉巴马州的数据帧,结合所有年份,并为每个州重复这一点,而不必手动创建每个数据帧。
我已经尝试创建了一个循环,它采用state factor列的所有级别,并为每个列分配该特定因子的相关行。
# this is how I did this manually for Alabama:
alabama <- data[which(data$STATE == "ALABAMA"),]
# this is the loop I