选择'groupby()‘和'value_counts()’函数后每个组的第一行

文章/答案/技术大牛

发布

3回答

、、、

我有一个名为new_data_set的数据集，它看起来像这样： Image 我想找出每年出现次数最多的类型。所以我这样做了： new_data_set.groupby('release_year')['genre']).apply(lambda x: x.value_counts())` 它的结果如下所示：result现在，我需要从每个组中获取第一行，以获得答案。

浏览 28提问于2019-02-23得票数 2

回答已采纳

2回答

如何选择熊猫系列中包含多个值的特定行？

、、

我已经创建了一个熊猫series应用groupby函数和value_counts()。我想选择一个有多个值的行。704 D 219ex = ex["Name"].value_counts() Outpu

浏览 0提问于2018-06-27得票数 3

回答已采纳

2回答

在分组中维护Pandas Dataframe主排序顺序

、、

我想得到最常见的国家模式。我这样做：但这样做的效果是，在不保留国家分组的情况下，对模式的出现进行排序。如何保持主要类型的国家在输出中上升，然后按模式排序出现的情况下降？

浏览 1提问于2017-04-13得票数 1

回答已采纳

1回答

Python - Pandas，计数时间与组中第一条记录的时间不同

、

在继续使用具有以下DF的this question时： group_id timestamp B 2020-09-01 04:00:00 UTC

浏览 8提问于2020-11-23得票数 1

回答已采纳

1回答

根据另一列的值获取另一列的模式值？

、

我有一个从csv文件读取的数据帧， song artist year \6.0 1.0726 8.0 7.0728 5.0 11.0我希望能够找到的是列'c15‘中最常见的值，用于'year’中的任何值。更好的做法是在c15

浏览 3提问于2017-03-12得票数 1

回答已采纳

1回答

从不同的GroupBy组选择不同的行

、

与为每个组选择相同索引的GroupBy.nth相反，我想从每个组中提取特定的索引。例如，如果我的GroupBy对象由四个组组成，我希望分别从每个组中得到第一、第五、第十和第15行，那么我希望能够传递x = [0, 4, 9, 14]并获得这些行。

浏览 5提问于2019-02-05得票数 0

回答已采纳

2回答

获取count_values(normalize=True)结果中的每个值，在每一组熊猫GroupByDataframe

、、

1,1,1,1,2,2,2],我希望得到每个car在每个id中的计数比，以及计数，即得到的数据将是 car 1 Audi 0.25

浏览 12提问于2022-09-19得票数 1

回答已采纳

1回答

Python:使用group by选择最常用

、

如何获取Python中每个标记出现频率最高的类别(模式)？8 bath | 9 由于我的数据集的机密性Fuhry的表格，并在上编辑了David Fuhry的输出。

浏览 1提问于2014-05-16得票数 6

回答已采纳

6回答

value_counts熊猫组和寻找顶级大熊猫

、、

我有一组出租车数据，其中有两列，如下所示：Midtown Manhattan XMidtown Manhattan A基本上，每一行都代表了那个区社区的一辆出租车现在，我想找出每一个区的前五名，皮卡数量最多的地区。我试过这个： df['

浏览 2提问于2016-02-12得票数 51

回答已采纳

1回答

每周的“最大值日”，并对Python中最高的每一天进行合计

、、

我获得了本周的最高价值。现在，我需要找出是一周中的哪一天，这样我就可以计算出一周中某一天的次数最多。例如，具有该周最高值的星期Mon:5 Tue:2 Wed:3 Thur:2 Fri:1 This is what my dataframe looked like before I parsed the275.489990 [505 rows x 5 columns] 现在，我能够获得一周中的

浏览 15提问于2021-06-27得票数 0

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

在AttributeError中使用Pandas结果定义自定义GroupBy聚合函数

、

1, 0, 1, 0]}我想使用groupby函数计算教育变量education中每个结果的百分比- df = df.groupby(['zip', 'year'])['education'].value_counts(normalize = True, drop

浏览 0提问于2020-02-18得票数 0

1回答

pandas数据帧在一列上按最大值分组

、、

我正在尝试按“关键字”列进行分组，并获取记录数量较多的特征。对于关键字b，A或B都可以，对于关键字c，B是最频繁的。在我的例子中，我有10000个关键字和3个特征。我希望返回一个以关键字为索引、以最频繁的特征为值的pd.Series，或者一个以关键字为关键字、以最频繁的特征为值的字典。我尝试对我的关键字和特征进行分组，并按如下方式计算行数： res = frame.groupby(['Ke

浏览 18提问于2019-12-23得票数 1

回答已采纳

1回答

计数器在大熊猫独特栏值上的应用

、、

我的数据是这样的同一个用户可以有多个移位ID。因此，在nurse_id列中，我有重复I。Counter(df["new_stat"])Counter({'D': 15123, 'R': 29300, 'not_active': 2581, 'N': 21455}) 但它也计算it的重复值。如何在new_stat上为唯一<e

浏览 2提问于2019-10-04得票数 1

回答已采纳

1回答

熊猫群后最高和第二最高值发生的次数

、

我有如下所示的数据Itr Type Start Values2 1 102 20.4022 1 104 20.3993 2 131 20.0353 2 133 20.0353 2 135 20.021我想做一个迭代组(Itr) & Type &然后查找最大值的出现次数和第二个最大值的出现次数。例如，对于Ir

浏览 0提问于2019-06-18得票数 1

回答已采纳

1回答

伙计们，有什么办法能让第一排的人在一组数据中

、

这是我写的代码，但是输出太大，超过6000，如何获得每年的第一个结果？ df.groupby('release_year')'genres'.value_counts() = df_year

浏览 1提问于2022-07-26得票数 -1

回答已采纳

2回答

熊猫每组特定值的频率

、、、

假设我有5万名购物者和他们购买的产品的数据。我想数一下每个用户购买"a“产品的次数。value_counts似乎是为熊猫分组数据框架计算这类数字的最快方法。我可以从使用value_counts创建的数据框架中选择一个特定的列，但是对于拥有大量产品的非常大的数据集来说，这可能是相当低的效率。下面是一个模拟例子，每个客户从一套三种产品中购

浏览 3提问于2020-11-30得票数 2

回答已采纳

2回答

调查所得地块分组资料

、、

我有一个有兴趣变量的数据(分类，这里是Yes，No等等)和一个分组变量(见下文)：import numpy as np 'Response':np.random.choice(['Yes','No','Other', np.nan], 100)}) 由此，我想检索并绘制条形图中每组累积的数据详细说明:对于A组，Ye

浏览 5提问于2019-03-02得票数 1

回答已采纳

1回答

如何在保存Python发行版的同时从datafframe中随机取样？

、、

我使用的是示例数据。如下图所示，40%的位置位于CA，47%的category包括FOODS。我试图实现的是从这个数据框架中随机选择数据，同时或多或少地为这两列的值保留相同的分布。python/Pandas有这样的能力吗？>>> df = pd.read_parquet("~/dimension.parquet") >>> df.groupby('l

浏览 7提问于2022-11-11得票数 1

回答已采纳

2回答

获取每个层次熊猫系列的第一行

、、、、

Accident-type-code": ["1.1","1.2", "1.1","1.3","1.5","1.3","1.1","1.1","1.1", "1.1", "1.3"]为了分析这些数据，我使用了groupby： data = df.groupby(["Gender", "Work-

浏览 1提问于2020-04-21得票数 0

点击加载更多