我有两个DataFrames,两个国家都是1--首先是183行,2--第二行是156行--它们都有相互导入的信息,我需要第一列的一列和第二列的一列,我的目标是创建一个单一的Dataframe,包含我需要的两个列,以及两个数据名通信的包含的名称。
这就是我所做的,我得到的信息
for i in range(183) :
for j in range(156):
if df['Country'][i]==df_happy['Country or region'][j]:
df.drop(i,axis=0,inplace
给出了一个包含字符串的Python列表和一个具有X、Y、Z列的Pandas DataFrame。我需要顺序地查询列Y == mylist[index]所在的dataframe中X列的值。我尝试了以下几点,但没有结果:
filelist = glob.glob('/somedir/*.txt')
for f in filelist:
f = os.path.basename(f)
df.loc[df['Y'] == f, 'X'].item()
在oracle 11g中,我需要将多个表中的两行合并为单行。这两行应该替换为单行,新行的列值应该是这两行的总和。
现有
Id No Region Value1 Value 2 Value 3
1 A 5 2 3
2 B 2 4 1
3 C 2 2 2
4 D 1 1 1
新变化
Id No Region Value1 Value 2 Value 3
1
我使用列表理解来索引一个numpy数组,并对这些值求和: df[col]=np.array([A_numpy_array[b].sum() for b in B_numpy_array]) 我的A_numpy_array是使用B_numpy_array的元素b进行索引的(它有800-900万个元素)。 这部分代码是这个过程需要一段时间的地方,我完全用完了RAM,并开始写入磁盘。 据我所知,列表理解是Python中最有效的方法之一。此外,以这种方式设置pandas列在pandas中也很有效。 有没有其他方法可以使用b中保存的索引值对A_numpy_array进行切片,使我能够以一种更高效的内存
我有一个像这样的熊猫数据帧:
year week city avg_rank
0 2016 52 Paris 1
1 2016 52 Gif-sur-Yvette 2
2 2016 52 Paris 1
3 2017 1 Paris 4
4 2016 52 Paris 3
5 2016 52 Paris
我有一个数据帧names_df,有8亿行,有两列。名字和姓氏。我需要从两列的总和中找出唯一名称的总数。
first_name last_name
0 john doe
1 jane doe
2 doe john
3 doe jane
:
799999999 Levi Ackerman
800000000 Gojo Satoru
我可以简单地这样做:
unique_names = np.concatenate((names_