首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Pandas计算满足条件的行的列平均值

Pandas计算满足条件的行的列平均值
EN

Stack Overflow用户
提问于 2019-09-24 21:36:27
回答 1查看 108关注 0票数 1

我有一个数据框,其中包含一段时间内用户评分项目的信息。它具有以下外观:

在数据帧中,有许多行具有相同的'user_id‘和'business_id’,我使用以下代码检索它们:

代码语言:javascript
运行
复制
mask = reviews_df.duplicated(subset=['user_id','business_id'], keep=False) 
dup = reviews_df[mask]

获取类似如下的内容:

现在,我需要从原始数据帧中删除所有这些重复项,并将它们替换为它们的平均值。有没有一种快速而优雅的方法来实现这一点?谢谢!

EN

回答 1

Stack Overflow用户

发布于 2019-09-24 22:00:21

Se如果您确实有数据帧,则如下所示

代码语言:javascript
运行
复制
   review_id  user_id  business_id  stars        date
0          1        0            3    2.0  2019-01-01
1          2        1            3    5.0  2019-11-11
2          3        0            2    4.0  2019-10-22
3          4        3            4    3.0  2019-09-13
4          5        3            4    1.0  2019-02-14
5          6        0            2    5.0  2019-03-17

那么解决方案应该是这样的:

代码语言:javascript
运行
复制
df.loc[df.duplicated(['user_id', 'business_id'], keep=False)]\
  .groupby(['user_id', 'business_id'])\
  .apply(lambda x: x.stars - x.stars.mean())

结果如下:

代码语言:javascript
运行
复制
user_id  business_id   
0        2            2   -0.5
                      5    0.5
3        4            3    1.0
                      4   -1.0
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58081592

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档