假设我有两个数据帧A和B,每个数据帧包含两个名为x和y的列。我希望连接这两个数据帧,但不是连接在两个数据帧中x和y列相等的行上,而是连接在A的x列是B的x列的子字符串且y列相同的行上。
if A[x][1]='mpla' and B[x][1]='mplampla'
我希望它能被捕获。
在sql上,它可能类似于:
select *
from A
join B
on A.x<=B.x and A.y<=B.y.
这样的事情能在python上完成吗?
我正在尝试连接两个数据帧,但无法理解Python必须提供的可能性。 第一个数据帧: ID MODEL REQUESTS ORDERS
1 Golf 123 4
2 Passat 34 5
3 Model 3 500 8
4 M3 5 0 第二个数据帧: MODEL TYPE MAKE
Golf Sedan Volkswagen
M3 Coupe BMW
Model 3 Sedan Tesla 我想要的是在第一个数据帧中添加另一个名为"make“的列,这样它看起来就像这样: ID MODE
我是R的新手,所以我在问一个基本的问题。
我有两个数据帧
数据帧1包含匹配对:
Factor1 Factor2
A D
B E
C F
数据帧2包含不同样本中不同因素的水平:
Sample1 Sample2
A 10 0
B 10 0
C 0 0
D 0 10
E 0 10
F 0 0
我正在尝试遍历第一个数据帧。对于数据帧1中的每一行,如果样本1中factor1的电平大于5,并且样本2中因子2的电平大于5,则在数据帧1中添加第三列中的TRUE,否则添
我有两个正在尝试合并的数据帧。
数据帧A:
col1 col2 sub grade
0 1 34.32 x a
1 1 34.32 x b
2 1 34.33 y c
3 2 10.14 z b
4 3 33.01 z a
数据帧B:
col1 col2 group ID
0 1 34.32 t z
1 1 54.32 s
我使用python处理熊猫数据帧已经有一段时间了。我想将我正在使用的相同代码切换到R。然而,我没有太多使用R的经验,我也不确定我有什么选择来做同样的事情。我有一个包含许多csv文件的文件夹,并且我有一个文件名列表,我希望遍历这些文件并对这些文件进行完整的外连接。 在pandas中,我会运行以下命令, import pandas as pd
filelist = pd.read_excel("/Users/XXX/Documents/test/data/list.xlsx") #contains a list of filenames in the File column ar
我有一个数据帧"moment_f“。我必须从moment_f中删除一些包含名称"AH“的行。但是,我不会删除每个"AH“行,所以我创建了一个包含要删除的"AH”的新数据帧。
ah1 = moment_f[moment_f["TextGridLabel"] == "AH"]
ah_d = ah1.iloc[::2]
# got the odd rows of "AH" which is what I need to get rid of from the original dataframe "moment
我有两个数据帧。其中一个被认为是一个引用并具有每个值,另一个可能是缺失的值,也可能不是缺失的值。我想比较这两个数据帧,然后从另一个具有NA的参考数据帧中删除值。但是,数据帧中可能有缺失值的每一行都需要作为单个比较来处理,因此您正在为每一行开发一个唯一的引用。例如,引用dataframe(1):
var1 var2 var3
1 a b c
2 q w e
3 z x n
其他数据框架(2):
var1 var2 var3
1 p o i
2 u
我有两个数据帧,它们的列名如下:
frame_1:
event_id, date, time, county_ID
frame_2:
countyid, state
我想通过在county_ID = countyid上连接(左)来获得包含以下列的数据帧
joined_dataframe
event_id, date, time, county, state
如果我想要连接的列不是索引,我不知道该怎么做。最简单的方法是什么?谢谢!
我有两个数据帧,我正在尝试连接,这两个数据帧应该是直接的,但我看到了一些异常行为。 数据帧A Name Sample Country Path
John S18902 UK /Home/drive/John
BOB 135671 USA /Home/drive/BOB
Tim GB12345_serum_63 UK /Home/drive/Tim
Wayne 12345_6789 UK /Home/drive/Wayne 数据帧B
我希望基于R中的2列合并2个数据帧,这两个数据帧称为popr和data列,它们共享相同的2个变量: USUBJID和TRTAG2N,这两个变量是我想要组合这两个数据帧的变量。
当我只尝试根据一列进行合并时,合并函数就能工作:
merged <- merge(popr,droppedcol,by="USUBJID")
当我试图通过使用2列合并并查看数据框架“工期”时,表是空的,没有值,只有列标题。它说“表中没有可用的数据”。
我的任务是在R中复制SAS代码:
data duration;
set pop combined1 ;
by usubjid trtag2n;