我一直在使用两列主键,但我刚刚发现第二列(第2列)的值映射到同一项,从而导致重复。
我已经创建了一个新列(第3列),我想从该列创建一个包含两列的主键。我需要通过删除重复的行项目来为新的主键准备数据库。
我正在寻找一个可以隔离重复列的查询:例如,其中列1和列3都是重复的。例如。
Column 1 Column 2 Column 3 Remove?
1 a x n
1 b x y
2 b y n
3 c
我有一个命名元素(testlist)列表,其中一些名称是重复的
$x
[1] "one"
$x
[1] "two"
$y
[1] "three"
$y
[1] "four"
最后,我试图得到一个数据表,该数据表会将具有公共名称的元素组合到同一列中。
x y
1: one three
2: two four
我试过了
testdf <- do.call(cbind, lapply(testlist, data.table))
但到头来只有:
x.V1 x.V1 y.V1 y.V1
1: on
如何使用执行data.table?半连接与内部连接类似,只是它只返回X的列(也不返回Y的列),并且不重复X的行以匹配Y的行。例如,下面的代码执行内部连接:
x <- data.table(x = 1:2, y = c("a", "b"))
setkey(x, x)
y <- data.table(x = c(1, 1), z = 10:11)
x[y]
# x y z
# 1: 1 a 10
# 2: 1 a 11
半连接只返回x[1]。
我正在学习tidyverse,在最简单的操作中遇到了一个问题:读取单个单元格并为其赋值。为此,我需要匹配另一列中的特定值,并调用我想要更改其值的列的名称(因此我不能使用数字行号和列号)。 我已经在网上搜索过了,读过tibble文档(这似乎是最适用的https://tibble.tidyverse.org/reference/subsetting.html?q=cell),也没有找到答案。(我可能遗漏了一些东西--为这个问题的简单性道歉,如果这个问题在其他地方得到了回答) test<-tibble(x = 1:5, y = 1, z = x ^ 2 + y) 收益率: A tibble
我正在尝试从ID重复的表中删除数据,但将另一列保留为某个值
key . id . info . flag
1 . A . apple . y
2 . B . banana . n
3 . B . banana . y
4 . C . orange . n
我想删除"id“重复的第2行,并将标志值保留为"y”。表的行数大于100K
我尝试了DISTINCT和GROUP BY的各种组合,但没有得到很好的结果
尽管这行代码现在是多余的,但是在运行了几次迭代后,应该从原始列表中删除self.y的代码行抛出了“Valueerror: list.remove(x) x not in list”。我不知道现在我做错了什么。
from random import sample, choice
class Selection(object):
def __init__(self):
self.pokemon_list = [
'Blastoise', 'Charizard', 'Venasaur',
我有一个包含id、colA和colB列的表。数据包含重复的id列,对于某些行,colA或colB为null,但重复的id具有有效值。我想要清除数据,以便删除重复,但有完整的数据。例如,我的数据看起来就像
id | colA | colB
1 NA X
1 Y X
2 Z NA
2 Z Y
3 Z Y
3 Z Y
4 NA NA
4 NA NA
我想让我的数据看起来像
id | colA | colB
1 Y X
2 Z Y
我的问题与有关。
本质上的问题是:如何根据同一数据帧中单独列中的重复组在一列中选择最大值?
在那篇文章中,用户EDi 介绍了如何完成这个任务。
我的问题是:如何完成相同的任务,但不是报告最大值,而是在第三列中报告与最大值相关的值?。
例如:
假设我有一个data.frame:
集团价值年A 12 1933 A 10 2010 B 3 1935 B 5 1978 B 6 2011 C 1 1954 D 3 1933 D 4 1978
对于分组变量的每个级别,我希望提取最大值发生的年份。因此,结果应该是一个数据帧,分组变量的每级有一行:
A组年1933 b 2011年c 1
在本例中,我需要检查第一个column - name中是否有重复项。有-前3行。现在我知道了这一点-我需要检查列"etc2“在前3行中是否也有重复项。在这种情况下,只有前两行是重复的。然后我需要取这两行中所有列的平均值。在此之后,我继续使用"name“。现在第5&6行也有相同的值,然后我检查"etc2“中的值是否相同。它们是,所以我需要找出这两行中所有列的平均值。
例如,我有这样的数据
dat <- read.table(text='name value etc1 etc2
A 9