在熊猫中获取按组分布的df_在熊猫df中追加丢失的月份_DF变量中按组显示的r计数值 - 腾讯云开发者社区

python、pandas、dataframe、distribution

我有一个带有Reddit数据的dataframe，包括一个作者和一个subreddit字段。我想要得到每个作者的分布，他/她在每个子subreddit中发布的频率，可以与其他作者的分布进行比较。sub_visits = df.groupby('author').subreddit.value_counts()/df.groupby('author').subreddit.count() 这一行

浏览 9提问于2020-07-14得票数 0

回答已采纳

2回答

星星之火上熊猫API组

pandas、apache-spark、pyspark、group-by、spark-koalas

我下面有一只熊猫， 'kings', 'Kings', 'Kings2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017], 'Points':[876,789,863,673,74

浏览 5提问于2022-11-11得票数 0

回答已采纳

1回答

如何同时分组/应用两个星火DataFrames？

apache-spark、pyspark、apache-spark-sql、pyspark-sql

如果我有三个集群，我正在寻找这个DF：|--------+---------+----------------|我有两个想法，如果有的话，我不确定哪一个是有意义

浏览 1提问于2018-10-11得票数 2

1回答

如何计算超过某一数值的均值的个数

python、pandas

嗨，需要帮助在一些熊猫鳕鱼！问题是如何获取df和groupBy年龄得分平均值，并将其与df‘groupBy’.平均值进行比较，并对高于df‘Score’的结果进行计数。data.groupby(['age'])['Score'].mean()现在我如何比较总分的平均值，并按年龄计算结果组

浏览 1提问于2021-05-31得票数 0

1回答

获取大熊猫群中的所有值

python、pandas

熊猫群比提供first和last来获取组中的第一个和最后一个值。是否有一种方法可以将一个组中的所有值作为列表？我想为某些列计算平均值，但通过操作获取熊猫组中其他列的所有值。df_points = df_points.groupby(['field_id', 'Year']).agg({&#

浏览 2提问于2019-12-05得票数 2

回答已采纳

1回答

在pandas中基于列和透视中的一组查找最大值行

python、pandas、dataframe、pivot-table、pandas-groupby

我有以下熊猫数据框架：4 78 a 4 50 c 9 8 e 9 30在每个'id‘组中，获取基于'val’的n个最大行(本例中为n=2)。例如，在id为4的组中为78 & 50，在id为9的组</

浏览 2提问于2018-07-05得票数 1

1回答

如何将不聚合的熊猫群体转化为火星雨？

pandas、pyspark、pandas-groupby

我正试图将以下熊猫系列转化为火星雨：现在，我已经熟悉了pyspark的df.groupby("col1","col2")方法，以及下面列出的第一个元素在一个组中的位置： df = df.withColumn("row_n

浏览 5提问于2019-11-11得票数 1

回答已采纳

1回答

如何在熊猫数据群中创造秩序？

python、pandas、dataframe、analysis

我有数据数据，在其中我想要添加列，它将分别显示每个user_id的日期顺序，所以它将类似于TABLE2。2018-01-06 14:24:13 A 像这样的事情3 是否有比对每个user_id分别进行迭代更有效和可能更简单的解决方案

浏览 0提问于2018-09-05得票数 0

回答已采纳

1回答

Pandas.DataFrame.hist()只显示连续/数值数据

python、pandas、matplotlib

文档上写着： matplotlib.pyplot.hist(df['Embarked'])df['Embarked

浏览 6提问于2020-03-17得票数 1

2回答

Python-熊猫用数据中一组的中间值或平均值替换NA。

python、numpy、pandas、dataframe

假设我们有一个df： apple 1.0 apple NA orange 7.0melon 14.0 melon 15.0要替换NA，我们可以使用df["B"].fillna(df["B"].median())，但它将用"B“中所有数据的中位数填充NA。我们是否可以用某个A的

浏览 3提问于2015-11-06得票数 9

回答已采纳

3回答

AttributeError:无法访问'DataFrameGroupBy‘对象的可调用属性'reset_index’，请尝试使用'apply‘方法

python-3.x、pandas、pandas-groupby

我对熊猫很陌生，并且尝试使用groupby。我有一个有多列的df。 col1 | col2 | col3 | col4 | col5 ======================

浏览 1提问于2018-05-22得票数 7

2回答

groupby并返回前n个组的所有行

python、pandas、pandas-groupby

我有一个熊猫数据框，如下所示 0 1 2 3 4 55列的排序顺序对它们进行分组，并返回前n个组，其中n可以作为变量。I df.sort_values(5).groupby([5]) I get <pandas.core.groupby.DataFrameGroupBy object at 0x2afc8d0> 如何获取前2组中

浏览 11提问于2017-07-03得票数 5

1回答

熊猫小计分类

python、pandas

我有一个多索引的数据，如下所示。我有意识地给出了完整的数据，因为当我用小数据尝试这个解决方案时，它是可以的，但是当我尝试使用完整的数据时，它就不起作用了。SubTotal 7我想根据每个0级“MATERIALNAME”列的小计对这个df进行排序。

浏览 3提问于2021-07-13得票数 0

回答已采纳

1回答

按栏分组，然后在熊猫中按索引绘制盒图

pandas、boxplot

我有一个大的数据，我想按某一列分组，并使用方框图以图形方式检查每个组的分布情况。我发现df.boxplot()会对数据文件的每一列都这样做，并将它放在一个图中，正如我所需要的。问题是，在进行了groupby操作之后，我的数据都在一列中，索引中有组标签，所以我不能对结果调用box图。以下是一个例子： df = DataFrame({'a':ran

浏览 2提问于2013-12-19得票数 6

回答已采纳

1回答

如何在Pandas Dataframe中对两列进行分组并获取值计数后获得最高值行？

python、pandas、pandas-groupby

我用下面的代码行对两列进行分组：我得到以下输出： Technology 97我想得到每个主题(这是最常见的类别)的最上面的行，如下所示： topic category

浏览 0提问于2018-05-21得票数 3

回答已采纳

1回答

Python大熊猫-将函数应用于分组数据

python、pandas、dataframe

0.455287 8 bar 0.351544 -1.146554 我希望得到每个组(按A分组时)列C的最大值，并将其添加到列C。以下是我尝试过的：df = df.groupby(by='A')for name in [

浏览 4提问于2016-02-26得票数 0

回答已采纳

2回答

如何将火花数据转换为数据库考拉数据？

python-3.x、dataframe、databricks

我知道你可以将星星之火数据格式df转换成熊猫数据格式然而，这花费了很长时间，所以我在databricks中发现了一个考拉包，它可以让我在没有熊猫数据的情况下使用这些数据作为熊猫的数据

浏览 0提问于2019-06-21得票数 10

回答已采纳

1回答

熊猫:如何保存每一组的最后“N”记录，按另一个变量排序？

python、pandas、dataframe

我想保留每个组的最后一个n行，按照使用熊猫的变量var_to_sort排序。现在我就是这样做的，我想将下面的数据按name分组，然后按date对sort进行分组，然后使用tail(n)获取by-group中的最后一个n元素。2019,4,1), "Don't want"], ['nick', date(2019,5,1), "I want this&

浏览 0提问于2019-08-19得票数 7

回答已采纳

4回答

如何从不同的数据集中用“边缘”(分布直方图)覆盖Seaborn连接图

python、pandas、overlay、seaborn

我从一组保存在熊猫JointPlot中的“观察计数与浓度”中绘制出了一份海运DataFrame图。我想(在同一组轴上)一个边际(即，单变量分布)对每个浓度在现有的边缘之上的“期望计数”进行叠加，这样就可以很容易地比较差异。这个图与我想要的非常相似，尽管它有不同的轴和只有两个数据集：下面是我的数据是如何编排和关联的一个例子： df<

浏览 5提问于2016-03-10得票数 8

回答已采纳

1回答

具有目标分层的K组

scikit-learn、pandas、cross-validation

'group': [10, 10, 10, 20, 20, 20, 30, 30, 30],}) 我想把df分成几次训练和测试(K倍)，所以训练和测试包含来自互斥组子集的例子。例如，如果测试包含来自组的示例，10、20测试应该只包含来自组30的示例。我也想保持按目标分层。因此，在创建组子集时也考虑了目标分布。这

浏览 0提问于2020-09-09得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云