如何从具有共同列值的两个数据帧中获得合并的数据帧,使得只有那些行使得合并的数据帧在特定的列中具有共同的值。
我有5000行df1格式:
director_name actor_1_name actor_2_name actor_3_name movie_title
0 James Cameron CCH Pounder Joel David Moore Wes Studi Avatar
1 Gore Verbinski Johnny Depp Orlando Bloom Jack Davenport Pirates
o
具体来说,我想迭代两个数据文件,一个是大的,另一个是小的。
最后,我想比较一下某一列中的值。
我试着创建一个嵌套的for循环;外部循环遍历大型dataframe,内部循环迭代小的dataframe,但是我遇到了困难。
我正在寻找一种方法来识别我的大型数据文件中的"name“和"value”,它们与我的小dataframe匹配。
背景信息:我正在使用熊猫库。
大型数据帧:
小数据集:
Name Value
SF 12.84
TH -49.45
我试图将两个数据帧中的几个列合并到另一个数据帧中,但两个数据帧上的键列的命名都不正确。如果你看图片“原始的两个数据帧”,Table_1有一个键列"CostCenter“,而Table_2有一个键列"CC”。我希望最终结果看起来像标题为"New dataframe“的图片。如您所见,我只从Table_2检索了"Fixed/Variable“和"CostCenterName”,而没有带来"CC“、"CostCenterSummary”和“CostCenterName”列。 -谢谢你的帮助!-吉姆 Original two dataframe
我正在合并熊猫中的两个数据集,并希望加快这个过程,所以我在用于合并的列中对这两个数据集进行了排序。(以前,这些列根本没有排序。)排序没有造成明显的速度差异,两者都花了大约8秒。
如果我手动合并两堆纸,比如说,它们的页码,我会首先按页码对它们进行排序。否则,我将不得不做很多来回翻转之间的堆栈。
我写了一个测试来比较这两个过程。它按随机顺序生成两个帧,每个帧有一百万行。然后,它将生成第一列上已排序的另外两个列。然后,它合并前两个,最后,合并后两个。
数据生成过程太慢了,以至于我没有时间尝试更多的行--但是合并仍然是在零感知的时间内进行的,即使没有排序。
import pandas as pd
im
我有两个表,两个表都有delete_status,但是这些列有不同的数据
CODE:(data-config.xml)
<entity name="category_masters" query="SELECT
category_updated,delete_status,category_id,category_name FROM category_masters
where category_id='${type_masters.category_id}'