我有两个数据帧
DataFrame A和数据帧B。
A <- data.frame(a=c(1,2,3,4,5),b=c(2,4,6,8,10),c=c(3,6,9,12,15),x=c(4,8,12,16,20),y=c(5,10,15,20,25))
B <- data.frame(a=c(1,2,3,4,5),b=c(2,4,6,8,10),c=c(3,6,9,12,15),x=c(4,8,12,16,20),y=c(5,10,15,20,25))
A
a b c x y
1 2 3 4
我在熊猫中有一个数据帧,我需要拆分。它比这个大得多,但这里有一个示例: ID A B
a 0 0
b 1 1
c 2 2 我有一个列表:keep_list = ['ID','A']和另一个列表:recode_list = ['ID','B'] 我希望按列标题将数据帧拆分为两个数据帧:一个数据帧包含列标题与keep_list匹配的列和值,另一个数据帧包含与recode_alleles列表匹配的列标题和数据。到目前为止,我尝试过的每个代码都不起作用,因为它试图将值与列表进行比较,而不是与列名进行比较。 非
我想计算数据帧中每一对可能的列的每行数之间的绝对差异。
例如,使用下面的dataframe:
x <- rnorm(1:10)
y <- rnorm(1:10)
z <- rnorm(1:10)
df <- as.data.frame(cbind(x,y,z))
有可能的列组合的x-y,x-z,和y-z。我希望计算每一列对在每一行中的数字的差异。
我想要的输出是这样的:
Variable 1 Variable 2 Difference
x y 1
x y 2
x y 3
x z 4
x z 5
x z 6
x z
我有两个数据帧df1和df2,我只想在结果中不匹配的列。我试着使用SQL来做,但是SQL返回所有列,而不是一列。
df1
col1|col2|col3
a b c
1 2 3
df2
col1|col2|col3
a b e
1 2 3
我想要的是如果它能返回
df3
col3
是否可以在pyspark中做do,或者我必须通过从两个数据帧中选择每一列然后进行比较来进行比较?
我无法比较两个不同数据帧的列值。
第一个数据集有500行,第二个数据集有128行。我提到的是数据集的几行。
第一个数据集:
Country_name Weather President
USA 16 Trump
China 19 Xi
第2个数据集
Country_name Weather Currency
North Korea 26 NKT
China 19 Yaun
我想要比较country_name列,因为我在dataset 1
我希望基于R中的2列合并2个数据帧,这两个数据帧称为popr和data列,它们共享相同的2个变量: USUBJID和TRTAG2N,这两个变量是我想要组合这两个数据帧的变量。
当我只尝试根据一列进行合并时,合并函数就能工作:
merged <- merge(popr,droppedcol,by="USUBJID")
当我试图通过使用2列合并并查看数据框架“工期”时,表是空的,没有值,只有列标题。它说“表中没有可用的数据”。
我的任务是在R中复制SAS代码:
data duration;
set pop combined1 ;
by usubjid trtag2n;
我有两个来自excels的数据帧,如下所示。第一个数据帧有一个多索引头。 我试图根据货币(即KRW,THB,USD,INR)查找数据帧中的每一列与相应数据帧之间的相关性。目前,我正在执行一个循环来遍历每一列,在找到相关性之前按索引和相应的头进行匹配。 for stock_name in index_data.columns.get_level_values(0):
stock_prices = index_data.xs(stock_name, level=0, axis=1)
stock_prices = stock_prices.dropna()
fx
我有以下两个熊猫数据帧:
df1
A B C
0 1 2 1
1 7 3 6
2 3 10 11
df2
A B C
0 2 0 2
1 8 4 7
其中A、B和C是两个数据帧的列标题。
我尝试将df1的列与df2的列进行比较,这样df2中的第一行就是下界,第二行就是上界。df1中超出下限和上限(按列)的任何值都需要替换为NaN。
因此,在此示例中,输出应为:
A B C
0 nan 2 nan
1 7 3 6
2 3 nan nan
作为一个基础,我正在尝试df1[df1 < df2] =
我有一个按特定顺序排列的166列& 63k行的数据帧。我有另一个166列和35k行的数据帧。第二个数据帧中的166列与第一个数据帧的顺序不同。
如何强制第二个数据帧与第一个数据帧的列顺序对齐?( 166列在两个数据帧中是相同的名称)。
在谷歌搜索解决方案时,出现了一种方法:
df2 = df2[['col1','col2','col3','col4']]
但是有161列,这太乏味了。
X_18 #dataframe 1
X_19 #dataframe 2
# I tried to re-order both on the
我有两个大数据帧: DBa和DBb。DBb的所有列都是DBa格式的。
我想按DBb的所有列合并这两个数据帧。
我在试着:
new <- merge(DBa, DBb, by=colnames(DBb))
但它给了我一个错误:
Elements listed in `by` must be valid column names in x and y
我该怎么做呢?
我有两个一行的数据帧,每个数据帧都有相同的列名。其中一个数据帧在一个或多个列中具有NA值。我希望删除其中一个数据帧中具有NA值的列,并删除第二个数据帧中的相同列。
样本:
数据框架1:
age height education average
NA 1.80 college NA
数据框架2:
age height education average
36 1.95 college 85
结果:
数据框架1:
height education
1.80 college
数据框架2:
height education
1.95 college
我该