文章/答案/技术大牛

发布

社区首页 >问答首页 >使用累积和在python/pyspark中赋值

问使用累积和在python/pyspark中赋值
EN

Stack Overflow用户

提问于 2021-01-14 12:36:38

回答 1查看 62关注 0票数 2

使用Python，我想写一些代码来分类所有的项目，其中里程列<=2.5的累积和为"IN“，其余的为"OUT”。有什么建议从哪里开始吗？

示例数据集

Rank  Name  Miles
  1   A     0.5  
  2   A     1
  3   B     1
  4   B     1
  5   C     2

期望输出

Rank  Name  Miles  Assign
  1   A     0.5     IN
  2   A     1       IN
  3   B     1       IN
  4   B     1       OUT
  5   C     2       OUT

python

回答 1

Stack Overflow用户

发布于 2021-01-14 13:26:11

看起来你在用熊猫，虽然我不是专家。

如果你有一个像这样的数据帧：

   Rank Name  Miles
0     1    A    0.5
1     2    A    1.0
2     3    B    1.0
3     4    B    1.0
4     5    C    2.0

然后，您可以简单地创建一个新列，其中的值基于Miles列的累积和：

df['Assign'] = ['IN' if i <= 2.5 else 'OUT' for i in df['Miles'].cumsum()]

或者，我认为这更惯用：

df['Assign'] = ['IN' if i else 'OUT' for i in df['Miles'].cumsum() <= 2.5]

它变成了：

   Rank Name  Miles Assign
0     1    A    0.5     IN
1     2    A    1.0     IN
2     3    B    1.0     IN
3     4    B    1.0    OUT
4     5    C    2.0    OUT

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65713474

复制

相似问题

问使用累积和在python/pyspark中赋值
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用累积和在python/pyspark中赋值EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用累积和在python/pyspark中赋值
EN