Pandas:如何在groupby中包含DataFrame中不存在的类别

文章/答案/技术大牛

发布

1回答

、

我在Pandas Dataframe中使用了groupby函数。df :U-01 HU-03 HU-05 HH 4 L 2 实际上，在层次上有"H“、&quo

浏览 17提问于2020-08-24得票数 1

回答已采纳

1回答

PySpark相当于熊猫的群体分类？

、、、、

在Pandas上，我们可以按一个分类系列进行分组，然后在聚合时，它会显示所有的类别，不管它是否包含任何记录。import pandas as pd cuts = pd.cut(df.Age, bins=[0, 11, 30, 60]) df.Age.groupby(cuts).agg(mean="mean", oc

浏览 13提问于2022-10-24得票数 1

回答已采纳

1回答

如何操作Dask的group by返回的组？

value category1 20 B3 40 B 我想添加一个mean列，其中包含每个类别的值的平均值。) pd.concat(groups).sort_index() 我如何在Dask中做同样的事情？我不能按原样使用pandas函数，因为你不能在Dask中枚举groupby对象。这 import dask.dataframe</e

浏览 15提问于2019-10-18得票数 0

回答已采纳

1回答

从部分分类列获取value_counts

、

我正在尝试使用pandas (v0.23.4)从Categorical列(特别是包含月份信息)中获取value_counts。当所有类别都存在时，可以很好地工作：import random 如预期的那样打印： Month

浏览 2提问于2019-03-19得票数 2

回答已采纳

1回答

Pandas groupby和count:包含不在DataFrame中的类别

、

我有以下功能(1-4)和一些名称的DataFrame。并非所有功能实际上都存在于DataFrame中(缺少3个)： import pandas as pd [[1, 'name_1'],,# Feature Name#1 2 name_2#3 4 name_4 我想要分组特征和计数： df.groupby

浏览 10提问于2020-03-18得票数 1

回答已采纳

2回答

在spark Dataframe中应用groupBy后筛选的列的百分比

、、、

Spark Dataframe包含一个包含2列的表:状态、类别。Status has values----'y' and 'n'如何在spark (Scala)中找到每个类别中状态'y‘的百分比df.groupBy("ca

浏览 4提问于2017-10-24得票数 1

1回答

如何在groupby中包含Pandas* DataFrame中*不存在的列

、

nann3 3 0 0 0 2 在代码中，df1 = (df.unstack() .fillna('nan') .unstack([0,2], fill_value=0)

浏览 13提问于2020-08-25得票数 1

回答已采纳

2回答

如何在Pandas中的大数据帧上执行rolling_median而不会遇到skiplist_insert失败的错误？

、

我有一个巨大的数据框架，大约有1041507行。df['rolling_median']=df['value'].groupby(['Category','Subcategory']).apply如果需要的话，我会附上完整的<

浏览 1提问于2016-03-10得票数 1

1回答

我在Pandas DataFrame中按两列分组，然后计算每个组的大小。然后，将对此分组DataFrame进行过滤，并在条形图中绘制数据。我遇到的问题是，如果一个组有一个零计数，那么它不会显示在DataFrame中，因此不会出现在图中。[熊猫群为零values](https://stackoverflow.com/questions/37003100/pandas-groupb

浏览 0提问于2018-06-15得票数 1

回答已采纳

2回答

熊猫群中的NaN项目是否伴随着包括类别列期望行为在内的聚合？

、、

我聚合了一个包含类别列的熊猫DataFrame。输出包含了几个我没想到也不明白的NaN。示例代码：d.astype({'b': 'category'}).<em

浏览 2提问于2019-11-01得票数 4

回答已采纳

1回答

Pandas 0.25.0:分类的groupby

、

我在使用上个月发布的Pandas 0.25.0时遇到一些困难。由于组合b m不存在，因此生成的数据框应包含3行。df.groupby(['A', 'B']).agg({'C': 'sum'}) Ca m 1然而，在Pandas</

浏览 7提问于2019-08-19得票数 2

回答已采纳

4回答

不清楚为什么使用单个组的groupby会产生行DataFrame

、

下面是对一个groupby的两个pandas.DataFrame操作 ans1 = d.groupby(grp1).apply(lamb

浏览 5提问于2021-09-08得票数 9

回答已采纳

1回答

名为聚合语法的熊猫抛出错误TypeError: int()参数必须是字符串、类似字节的对象或数字，而不是'_NoValueType‘。

、、

我有一只熊猫的资料如下'x': range(0, 5),当我使用未命名的聚合时，我得到了预期的结果但是，当我将语法更改为命名聚合时 xx = aa.groupby('g1').

浏览 3提问于2021-10-28得票数 0

1回答

传递什么Pandas数据类型来在一个组中转换或应用

、

在尝试调试groupby函数应用程序时，我使用一个虚拟函数来为每个组“查看传递给函数的内容”的。, 'data_2']].apply(f)single column transform<'> <class 'pandas.core.frame.D

浏览 5提问于2013-12-19得票数 6

回答已采纳

1回答

相当于从R到Python的By

、

我是python的新手。如果有人能告诉我如何在python中使用by包装数据表，我将不胜感激。tmp2=by(data =tmp,tmp$categorie, FUN = function(x) head(x, nb))提前谢谢你，从评论中我完成了我的帖子

浏览 2提问于2014-01-21得票数 2

2回答

统计数据帧字典中的行数

、、

我正在尝试计算每个数据帧中的行数。对于真正的数据，我的代码计算只有几行的数据帧的行数刚刚超过一万行。import numpy as npDf = pd.DataFrame(np.random.randint(0,1

浏览 18提问于2018-08-08得票数 0

回答已采纳

3回答

熊猫按两列分组并绘制曲线图

、

我有一个这样的数据帧：import pandas as pd%matplotlib inlinedf = pd.DataFrame({'category': list('XYZXY'), 'B': range(5,10),'sex': list('mfmff')}) 我想从“类别”栏中绘制基于类

浏览 5提问于2019-01-02得票数 15

回答已采纳

3回答

如何在Pandas中忽略列中的值？

、、

我想知道--一旦选择了列，如何忽略该列中不需要的/不必要的值？例如，假设我有一个10x2的df import pandas as pd data = [['jamie', 30], ['cersei', 30], ['tyrion', 25], ['tywin'或'Age'列，如anything > 18 在一个Pandas groupby</e

浏览 28提问于2019-12-30得票数 0

回答已采纳

1回答

通过分组dataframe列循环检查字符串值。

、、

我有两个数据文件，一个包含从PDF文档中抓取的大量文本数据，另一个包含类别和子类别。对于每个子类别，我需要计算包含至少一次提到子类别的文档的百分比(例如，对于子类别"apple"，计算包含“apple”的文档的百分比)。我能正确地计算出子类别百分比。但是，当我尝试用该值填充dataframe

浏览 5提问于2022-06-17得票数 2

回答已采纳

1回答

对重复行条目进行计数，高效RAM

、、

我有一个很大的数据帧，我想知道每行有多少个数据帧。我一直在使用这个：但它需要超过60‘m的内存，而我只能使用32’mfrom collections import Counter counts = df.groupby(['industry', 'sector'], as_index=False, sort=False).aggregate(Cou

浏览 8提问于2021-05-20得票数 1

点击加载更多