我有两个数据帧,如下: DF1:
Name Value
buying fish hook 240
arrange lunch 75
repair equipment 800
purchase air condition 1400
buying fish 66
DF 2:
Name
fish
lunch
equipemt
air condition
hair condition
fish hook
我想用模糊逻辑匹配来自两个数据帧的名称列中的名称,并将第二个数据帧中的名称列
假设我有一个数据帧:
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.rand(4,5), columns = list('abcde'))
我想从所有其他列中减去列df.a中的条目。换句话说,我想要得到一个数据帧,它包含以下列为列:
col_b - col_a| col_c - col_a |col_d - col_a
我尝试过df - df.a,但这产生了一些奇怪的结果:
0 1 2 3 a b c d e
0 NaN NaN NaN NaN NaN
我有两个列表(l1和l2),由两个数据帧(df1和df2)的必需列组成,我想对它们应用操作。 一个列表包含以_x结尾的所有必需列,另一个列表以_y结尾。 我想通过索引减去这些列的值,例如, df_final['first_col_sub'] = first element of l2 - first element of l1
df_final['second_col_sub'] = second element of l2 - second element of l1 and so on 实际上,这两个数据帧具有相同的列标题,并且我不能直接使用列标题来执行操
我需要减去两个具有不同索引的数据帧(当其中一个值丢失时,会导致'NaN‘值丢失),并且我想用不同的数字(填充值)替换每个数据帧中丢失的值。例如,假设我有df1和df2: df1: A B C
0 0 3 0
1 0 0 4
2 4 0 2 df2: A B C
0 0 3 0
1 1 2 0
3 1 2 0 subtracted = df1.sub(df2) A B C
0 0 0 0
1 -1 -2 4
2 NaN NaN NaN
3
我有两个数据帧:
dt1:
date value
0 20000101 2
1 20100101 5
dt2:
date value
0 20000101 1
1 20100101 1
新的数据帧是dt1.value和dt2.value的减法:
date value
0 20000101 1
1 20100101 4
如何做到这一点?
我有两个熊猫数据帧。
A = pd.DataFrame({'c1':[1],'c2':[2],'c3':[2],'c4':[1],'c5':[1],'c6':[1]})
B = pd.DataFrame({'c1':[0],'c2':[1],'c3':[0],'c4':[1],'c5':[0],'c6':[1]})
我想将B减去A,并将差值赋给A。我尝试了几个选项,使用了赋值减法或熊猫减法函数,但似乎
我有两个数据帧,例如: Df1 -
A B C D
x j 5 2
y k 7 3
z l 9 4 Df2 -
A B C D
z o 1 1
x p 2 1
y q 3 1 我想根据A列中包含的键,从Df1的C列和D列中扣除Df2中的C列和D列。 我还希望确保B列保持不变,例如: Df3 -
A B C D
x j 3 1
y k 4 2
z l 8 3 我在下面的帖子中找到了一个近乎完美的答案:Subtracting columns bas
我有两个数据帧,如下所示:
df1 : contains one variable ['search_term'] and 100000 rows
这些是我想要在我的文件中搜索的单词/短语
df2: contains parsed file contents in a column called file_text
此数据帧中有20000行和两列'file_name‘、'file_text’
我需要的是file_text中搜索词的每次出现的索引。
我找不到一种有效的方法来执行这种搜索。
我使用了str.find()函数和groupby,但是每个file_tex
我有两个数据帧。
a =包含不同天气事件的数千个观测值的原始数据集。6000个obs
STATE EVTYPE
1 AL WINTER STORM
2 AL TORNADO
3 AL TSTM WIND
4 AL TSTM WIND
5 AL TSTM WIND
6 AL HAIL
7 AL HIGH WIND
8 AL TSTM WIND
9 AL TSTM WIND
10 AL TSTM WIND
b =一个字典表,其中包含大多
我有一个场景,我希望在两个数据帧之间找到不匹配的行。这两个数据帧都有大约30列和一个唯一标识每条记录/行的id列。因此,我想检查df1中的行是否与df2中的行不同。df1是更新后的数据帧,df2是以前的版本。 我尝试了一种方法pd.concat([df1, df2]).drop_duplicates(keep=False),但它只是将两个数据帧结合在一起。有办法做到这一点吗。如果能帮上忙我会很感激的。 这两个dfs的示例数据如下所示。 id user_id type status 总共有39列,其中可能包含NULL值。 谢谢。 P.S. df2将始终是df1的子集。
我正在尝试找到一个函数,只在一个公共列上匹配两个不同长度的数据帧,然后创建一个不同的列,指定它是否找到匹配。因此,例如,df1是:
Name Position location
francesca A 75
cristina B 36
df2是:
location Country
75 UK
56 Austria
我想在"Location“上进行匹配,输出结果如下:
Name Position Location Match
francesca A 75 1
cristina B 36 0
我尝试过使用函数match或:
subset(df1, location %in% df2)
但它