在这个给定的示例中,我想在Pandas dataframe 'df‘中创建一个列,其中每个行的值都是基于其前面的行以及来自另一个列'id’的值。例如,如果'id‘已经在'amount’列中分配给它的值为30,那么其他值为30。
预期结果如下:
id amount
a 30
b 30
a 0
a 0
c 30
a 0
c 0
b 0
b 0
a 0
a 0我以为我可以通过groupby和lambda的结合来实现这一点,但遗憾的是,我已经多次撞到墙了。
我试过的是:
df['amount'] = df.apply(lambda x: 30 if df.groupby('id')['amount'].cumsum()<30 else 0)
这给了我以下错误:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
如果解决方案是显而易见的,我会提前道歉,但不幸的是,到目前为止,我还没有找到任何可以解决这个问题的方法。
谢谢
发布于 2022-09-02 22:07:11
谢天谢地,我能够回答我自己的问题。对于任何感兴趣的人,我成功地采用了以下方法:
df['amount'] = df['amount'].where(df.groupby('id')['amount'].shift().cumsum() < 30, 30)
感谢每一个分享他们想法的人!
发布于 2022-09-02 17:35:17
您可以这样使用替代列:
import numpy as np
df1["pastcol"]=[np.nan]+list(df1["amount"])[:-1]输出:
id amount pastcol
0 a 30 NaN
1 b 30 30.0
2 a 0 30.0
3 a 0 0.0
4 c 30 0.0
5 a 0 30.0
6 c 0 0.0
7 b 0 0.0
8 b 0 0.0
9 a 0 0.0
10 a 0 0.0发布于 2022-09-03 22:26:52
# Import Moduel
import pandas as pd
import numpy as np
# Data Preparation and Preprocess
df = pd.DataFrame({'id':['a','b','a','a','c','a','c','b','b','a','a'],
'amount':[30,30,0,0,30,0,0,0,0,0,0]}
)
df['Orig_Index'] = df.reset_index().index
df['Dup_Seq'] = df.groupby(['id']).cumcount()+1
df_required = df.loc[df['Dup_Seq']==1].replace()
df_final = pd.merge(df, df_required[['Orig_Index','Dup_Seq']], left_on='Orig_Index', right_on='Orig_Index', how='left')
df_final['amount_v2'] = np.where(df_final['Dup_Seq_y'] ==1 , 30,0)
df_final.drop(['amount','Orig_Index','Dup_Seq_x','Dup_Seq_y'],axis=1,inplace=True)
df_final.rename(columns = {'amount_v2':'amount'},inplace=True)
# Data Display
df_final你好弗朗西斯
请试试上面的代码,它会对你有帮助,
如果你有什么问题,请告诉我
谢谢里昂
https://stackoverflow.com/questions/73585967
复制相似问题