我试图找到一种方法,在df1中添加一列,其中包含来自df2的信息,这取决于df1中每一行的内容,而无需遍历df1。
具体来说,我想将df2 (“哺乳动物”)中的一般信息作为一个新列添加到df1 (“老虎”)中已有的特定信息中。
下面的代码可以工作,但我正在寻找更快/矢量化/更优雅的版本,因为它(当然)非常慢。
for (i in (1:nrow(df1))) {
subCategories <- unlist(df1$categories_split[i])
currentAggrCategories <- unique(df2[df2$subcategory %in% su
我有两个不同的data.frames与diff。尺寸。 dim(df1) = 2942 obs. 6 var.
dim(df2)= 16533 obs. 2307 var. 我想合并df1和df2的目标是一个df3 with 2942 observations。 以下变量定义数据帧中的观测值:serial (group indetification number), id1 (person identifier from the group ranges from 1 to number of people in the group), Day (the week day when t
我有两个数据帧,如下: DF1:
Name Value
buying fish hook 240
arrange lunch 75
repair equipment 800
purchase air condition 1400
buying fish 66
DF 2:
Name
fish
lunch
equipemt
air condition
hair condition
fish hook
我想用模糊逻辑匹配来自两个数据帧的名称列中的名称,并将第二个数据帧中的名称列
我有一个坐标的数据,在其中我执行点在多边形,它返回在多边形中的点集。
df1 -原始坐标
0 POINT (-97.96192929999999 29.8929939)
1 POINT (-97.98886109999999 29.8230438)
2 POINT (-97.6573715 30.15241810000001)
3 POINT (-97.68809509999998 30.3590794)
4 POINT (-97.37609860000001 31
下面我提到了两个数据框架:
DF1
ID Value
AL-1 Adf "& ert
AL-2 new '? rti
AL-3 oll- drt/
AL-4 plr -rte-
DF2
Value Type
Adf & ert AA
new rti AA
oll-drt& AB
plr-rte AC
所需产出:
ID Value Type
AL-1 Adf "& ert AA
AL-2 new '?
我想检查一个dataframe中的列中的值是否存在于另一个dataframe的列中。如果存在,则将该值添加到第二个dataframe中同一行的新列中。所有值都是字符串值。两个数据帧的大小不同。第二个数据帧也有大约70万条记录。因此,我拥有的数据帧:
DF1
THINGS
book+pen
CAR
chair
laptop
DF2
Description
I want a new book.
I will pen down this things
A quick ride in my new car.
Cars are awesome.
My laptop's memory is b
这里有个新手。我有一个dataframe genes,它包含两列:Index和Name,例如:
Index Name 1 A 2 B 3 C 4 D
另一个dataframe similarity包含6-7列,其中一个列是Members,它包含由空格分隔的不同Index值,如:
Members 1 3 5 7 3 7 6 9 2
我想要做的是通过匹配dataframe Names中的index列来替换索引到genes。如果在genes上找不到索引,我只想把N
我试图根据两个DataFrame中的公共列将一个DataFrame的值填充到另一个DataFrames中。
我为这个操作编写的代码如下:
for i in df1.zipcodes:
for j in df2.zipcodes.unique():
if i == j:
#print("this is i:",i, "this is j:",j)
df1['rent'] = df2['rent']
所讨论的Dataframes (df1)看起来具有形状(131942,2):
P
给出两个DataFrames
#df1
value Symbol Date Type Value
1109914 AUD 2016-01-29 value 64587.9121
1109949 CAD 2016-01-29 value 65357.1429
1109970 CHF 2016-01-29 value 111881.8681
1110012 DX 2016-01-29 value 91256.4103
#df2
volas Symbol Date T
我可能把这个问题复杂化了,但是我似乎找不到一个简单的解决方案。
我有两个DataFrame,我们称它们为df1和df2。让事情变得简单。假设df1有一个名为"Some data“的列,df2有两个名为"some Data”和"other data“的列。
示例:
df1
Some Data "Lebron James 123" "Lebron James 234"
df2
some data other data
"Lebron James 123 + other text"
因此,我想要创建一个基于引用dataframe的其他11个之间的匹配值的dataframe。而这11个dataframes有一个名为‘序列号’的列,我想将它与引用dataframe上的Serial列进行比较。
由于我没有想到如何将所有的12个excel文件循环到分离的变量中。我刚写了下面的代码。
导入所需的所有库
import pandas as pd
from matplotlib import pyplot as plt
from google.colab import drive
drive.mount('/content/drive')
指定存储所有excel文件