我有两个数据帧
DataFrame A和数据帧B。
A <- data.frame(a=c(1,2,3,4,5),b=c(2,4,6,8,10),c=c(3,6,9,12,15),x=c(4,8,12,16,20),y=c(5,10,15,20,25))
B <- data.frame(a=c(1,2,3,4,5),b=c(2,4,6,8,10),c=c(3,6,9,12,15),x=c(4,8,12,16,20),y=c(5,10,15,20,25))
A
a b c x y
1 2 3 4
我想计算数据帧中每一对可能的列的每行数之间的绝对差异。
例如,使用下面的dataframe:
x <- rnorm(1:10)
y <- rnorm(1:10)
z <- rnorm(1:10)
df <- as.data.frame(cbind(x,y,z))
有可能的列组合的x-y,x-z,和y-z。我希望计算每一列对在每一行中的数字的差异。
我想要的输出是这样的:
Variable 1 Variable 2 Difference
x y 1
x y 2
x y 3
x z 4
x z 5
x z 6
x z
我无法比较两个不同数据帧的列值。
第一个数据集有500行,第二个数据集有128行。我提到的是数据集的几行。
第一个数据集:
Country_name Weather President
USA 16 Trump
China 19 Xi
第2个数据集
Country_name Weather Currency
North Korea 26 NKT
China 19 Yaun
我想要比较country_name列,因为我在dataset 1
我有两个数据帧df1和df2,我只想在结果中不匹配的列。我试着使用SQL来做,但是SQL返回所有列,而不是一列。
df1
col1|col2|col3
a b c
1 2 3
df2
col1|col2|col3
a b e
1 2 3
我想要的是如果它能返回
df3
col3
是否可以在pyspark中做do,或者我必须通过从两个数据帧中选择每一列然后进行比较来进行比较?
我有两个不同的数据帧,我想比较df中每一行的一些列 数据帧A: M_ID From To M_Type T_Type T_Length T_Weight #Trucks Loading_Time
1025 A B Boxes Open 12-Tyre 22 3 27-March-2019 6:00PM
1029 C D Cylinders Trailer High 23 2 28-March-2019 6:00PM
1989 G H Scrap Open 14-Tyre 2
我有下面的数据框架-
Id value
A 1,2,3
B 3,4
C 5,6
我想检查下表中是否有“值”-
B=[1,3]
在此基础上,我想创建下面的数据框架-
Id value_inscope value_outofscope
A 1,3 2
B 3 4
C 5,6
我已经尝试过过滤或循环通过数据帧。有谁能建议向前走一步吗?