我想计算数据帧中每一对可能的列的每行数之间的绝对差异。
例如,使用下面的dataframe:
x <- rnorm(1:10)
y <- rnorm(1:10)
z <- rnorm(1:10)
df <- as.data.frame(cbind(x,y,z))
有可能的列组合的x-y,x-z,和y-z。我希望计算每一列对在每一行中的数字的差异。
我想要的输出是这样的:
Variable 1 Variable 2 Difference
x y 1
x y 2
x y 3
x z 4
x z 5
x z 6
x z
这是我第一次提问,如果我违反了提问规则,我深表歉意。 我的问题如下: 我有一个数据框架。对于此数据帧中的每个值,我需要评估减去下一列中的相邻值是否会得到绝对值> 1,如果为真,则将两个值都更改为NA,否则什么也不做。 下面是生成与我的数据帧等效的数据帧的代码,以及我到目前为止用来从彼此中减去列对的代码。 任何帮助都将不胜感激。 #generate some random data
data <- data.frame(replicate(80,sample(1:5,139,rep=TRUE)))
#subtract pairs of columns
discrepancy
我有两个数据帧
DataFrame A和数据帧B。
A <- data.frame(a=c(1,2,3,4,5),b=c(2,4,6,8,10),c=c(3,6,9,12,15),x=c(4,8,12,16,20),y=c(5,10,15,20,25))
B <- data.frame(a=c(1,2,3,4,5),b=c(2,4,6,8,10),c=c(3,6,9,12,15),x=c(4,8,12,16,20),y=c(5,10,15,20,25))
A
a b c x y
1 2 3 4
我有两个数据帧df1和df2,我只想在结果中不匹配的列。我试着使用SQL来做,但是SQL返回所有列,而不是一列。
df1
col1|col2|col3
a b c
1 2 3
df2
col1|col2|col3
a b e
1 2 3
我想要的是如果它能返回
df3
col3
是否可以在pyspark中做do,或者我必须通过从两个数据帧中选择每一列然后进行比较来进行比较?
我正在尝试从一个大的数据帧创建一组数据帧。这些数据帧以这种方式由原始数据帧的列组成:第一个数据帧是原始数据帧的第一列,第二个数据帧是原始数据帧的第一列和第二列,依此类推。我使用下面的代码来迭代数据帧: for i, data in enumerate(x):
data = x.iloc[:,:i]
print(data) 这是可行的,但我在开始时也得到了一个空的数据帧和一个不需要的索引向量。对如何删除这两个有什么建议吗? 谢谢
我有两个数据帧需要合并。数据帧共享所有相同的列。我基于一个共享变量worker_ID进行合并。然而,其他变量通常是不相交的:一个数据帧将有一个"NA“,另一个数据帧将有一个给定变量的另一个值。我如何才能以这样一种方式进行合并,使输出只保留非NA值?
x = worker_ID Var_1 Var_2 Var_3
1 33 NA NA
2 NA 46 NA
y = worker_ID Var_1 Var_2 Var_3
1 NA 75 NA
2 NA
上图显示了我的数据库表中名为“igstAmt”的一列。当我使用查询"SELECT sum(igstAmt) as igstAmt FROM salesinvoice时,它返回带有许多小数点的值21616.7500129491,但正确的答案是21616.75。我知道我可以在显示时四舍五入结果,我想知道为什么会发生这种情况?该列中条目的最大小数点数是两个,所以结果也应该有两个小数点,对吗?该列的数据类型为float。
我希望基于R中的2列合并2个数据帧,这两个数据帧称为popr和data列,它们共享相同的2个变量: USUBJID和TRTAG2N,这两个变量是我想要组合这两个数据帧的变量。
当我只尝试根据一列进行合并时,合并函数就能工作:
merged <- merge(popr,droppedcol,by="USUBJID")
当我试图通过使用2列合并并查看数据框架“工期”时,表是空的,没有值,只有列标题。它说“表中没有可用的数据”。
我的任务是在R中复制SAS代码:
data duration;
set pop combined1 ;
by usubjid trtag2n;
我对Rstudio和一般的编码都是新手。 我正在尝试修改一个数据帧,类似于"cars“数据帧(我的数据帧叫做countries)。它的类型是一个列表。 第一列是国家名称(类型为chr)。第二列是data (dbl类型)。 Country Number
1 Portugal 100000
2 Poland 200000
3 Israel 300000
4 South Africa 400000
5 Austria 500000 当数字超过250
我正在通过"sparklyr“和"SparkR”对spark in R进行基准测试。我在不同的Testdata上测试不同的函数。在两种特殊的情况下,我计算了一列中的零的数量和一列中的NA的数量,我意识到无论数据有多大,在不到一秒的时间内就能得到结果。所有其他计算都会随着数据的大小而变化。所以我不认为Spark在那里计算任何东西,但那些案例存储在元数据中的某个地方,并且它在加载数据时计算这些结果。我测试了我的函数,它们总是给我正确的结果。
有人能确认列中的零数和空数是否存储在数据帧的元数据中,如果不是,为什么它这么快就返回正确的值?
我有一列时区名称。我想得到另一列与UTC时间相比较的时间差。但是,我不知道在创建表时,应该为这个偏移量列使用哪种数据类型。我用:
CREATE TABLE zone_offset(
zone_name varchar(50),
zone_utc_diff timestamp
);
INSERT INTO zone_offset
SELECT zone_name, getdate() - getdate() at time zone zone_name AS zone_utc_diff
FROM zones
我得到了那个错误。我如何使它与任何数据类型一起工作?
非常感谢您提前!
我有两个来自excels的数据帧,如下所示。第一个数据帧有一个多索引头。 我试图根据货币(即KRW,THB,USD,INR)查找数据帧中的每一列与相应数据帧之间的相关性。目前,我正在执行一个循环来遍历每一列,在找到相关性之前按索引和相应的头进行匹配。 for stock_name in index_data.columns.get_level_values(0):
stock_prices = index_data.xs(stock_name, level=0, axis=1)
stock_prices = stock_prices.dropna()
fx
我正在使用JPA和JPQL。我在这个世界上是新的;-)我的查询现在给我两个日期之间的数据。
Query query =em.createQuery("SELECT d FROM DTable d JOIN d.history p WHERE (d.vehicle.id = :vehicleId) AND (p.timestamp BETWEEN :curentDate AND :date)");
我如何告诉JPQL过滤他给我的数据,在两个日期之间,但时间间隔为4分钟?
我希望这是清楚的。谢谢你的建议。