我尝试将输入数据帧中的值打乱,将这些新值存储到字典中,然后通过将输入数据框值替换为它们的字典映射来获得输出数据帧。
然而,我得到了“不允许替换重叠的键和值”的错误。
下面是我的代码示例:
in_df = ['A','B','C']
in_df = pd.DataFrame(in_df,columns=['Alphabets'])
df_temp = in_df.sample(frac=1).reset_index(drop=True)
df_temp = df_temp.rename(columns={'Alphabets':'sample'})
mask_dict = dict(zip(in_df['Alphabets'], df_temp['sample']))
out_df= in_df.replace({'Alphabets': mask_dict})
in_df如下所示:
Alphabets
A
B
C
mask_dict看起来像这样:
{'A': 'C', 'B': 'A', 'C': 'C'}
我希望out_df看起来像这样:
Alphabets
C
A
C
我找到了一种方法来做到这一点!
df_temp = in_df.stack().unique()
df_temp = pd.DataFrame(df_temp, columns=['Alphabets'])
df_temp1 = df_temp.sample(n=df_temp.size, random_state=123)
mask_dict = dict(zip(df_temp['Alphabets'], df_temp1['Alphabets']))
out_df = in_df.applymap(mask_dict.get)
发布于 2018-06-17 04:14:03
虽然我无法解释您的错误,但您可以使用pd.DataFrame.applymap
:
out_df = in_df.applymap(mask_dict.get)
这种方法也应该比pd.DataFrame.replace
更有效,后者在与字典一起使用时会有很大的开销。
如果只需要替换单个序列中的值,则可以使用pd.Series.map
out_df = in_df.copy()
out_df['Alphabets'] = out_df['Alphabets'].map(mask-dict)
相关:Replace values in a pandas series via dictionary efficiently
https://stackoverflow.com/questions/50891292
复制相似问题